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GENES EMPLIQUES DANS LES ISIALADIES INFLAMMATOIRES 
DE L'INTESTIN ET LEUR UTILISATION 

La presenie invention concerne des genes impliques dans les 
5 maladies inflammatoires et/ou immunes at certains cancers, en particulier les 
maladies inflammatoires cryptogenetiques de Tintestin, ainsi que les proteines 
codees par ces genes, Des methodes de diagnostics de maladies inflammatoires sont 
egalement des objets de la presente invention. 

Les maladies inflammatoires cryptogenetiques de Tintestin (MICI) sont des 

10 maladies caracterisees par une inflammation du tube digestif dent la cause est 
inconnue. Selon la localisation et les caracteristiques de I'inflammation on distingue 
deux entites nosologiques differentes: la rectocolite hemorragique (RCH) et la 
maladie de Crohn (MC). La RCH a ete decrite par S Wilkes en 1865 tandis que le 
premier cas d'ileite regionale a ete rapportee par Crohn en 1932. En realite, il est 

1 5 possible que ces deux maladies soient beaucoup plus anciennes. 

Les MICI sont des maladies chroniques qui evoluent tout au long de la vie et 
qui touchent environ 1 a 2 personnes sur 1000 habitants dans les pays occidentaux, 
ce qui represente entre 60.000 et 100.000 malades en France. II s'agit de maladies 
apparaissant chez le sujet jeune (le pic d'incidence est dans la troisieme decennie), 

20 evoluant par poussees entrecoupees de remissions, avec des complications 
frequentes telles que la denutrition, le retard de croissance chez I'enfant, la 
demineralisation osseuse et a terme la degenerescence maligne vers le cancer du 
colon. II n'existe pas de traitement specifique. Les therapeutiques habituelles font 
appel aux anti-inflammatoires, aux immunosuppresseurs et a la chirurgie. Tous ces 

25 moyens therapeutiques sont eux-memes source d'une morbidite iatrogene 
importante. Pour toutes ces raisons les MICI apparaissent comme un important 
probleme de sante publique. 

L'etiologie des MICI est actuellement inconnue. Des facteurs 
d'environnement sont impliques dans la survenue de la maladie comme en 

30 temoignent I'augmentation seculaire d'incidence de la maladie et la concordance 
incomplete chez les jumeaux monozygotes. Les seuls facteurs de risque 
environnementaux actuellement reconnus sont 1) le tabac dont le role est nefaste 
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dans la MC et benefique dans la RCH et 2) Tappendicectomie qui a un role 
protecteur pour la RCH. 

Une predisposition genetique est depuis longtemps suspectee devant 
I'existence d'agregations ethniques et familiales de ces maladies. En effet, les IVHCI 
5 sont plus frequentes dans la population caucasienne et en particulier la population 
juive d'Europe centrale. Les formes familiales representent de 6 a 20% des cas de 
MICL Elles sont particulierement frequentes lorsque le debut de la maladie est 
precoce. Cependant, ce sont les etudes chez les jumeaux qui ont permis de 
confirmer le caractere genetique de ces maladies. En effet, le taux de concordance 

1 0 entre jumeaux pour ces maladies est plus important chez les jumeaux monozygotes 
que chez les jumeaux dizygotes plaidant fortement pour une composante hereditaire 
aux MICI, en particulier a la MC. Selon toute vraisemblance; les MICI sont des 
maladies genetiques complexes faisant intervenir plusieurs genes differents, en 
interaction entre eux et avec des facteurs d'environnement. Les MICI peuvent done 

1 5 etre classees dans le cadre des maladies multifactorielles. 

Deux grandes strategies ont ete developpees afin de mettre en evidence les 
genes de susceptibilite aux MICI. La premiere repose sur I'analyse de genes 
candidats pour des raisons physiopathologiques. Ainsi de nombreux genes ont ete 
proposes comme potentiellement importants pour les MICI. II s*agit souvent de 

20 genes ayant un role dans Tinflammation et la reponse immune. On peut citer les 
genes HLA, TAP, TNF, MICA, le recepteur T du lymphocyte, ICAMl, 
I'interleukine 1, CCR5, etc. D'autres genes participent a des fonctions diverses tels 
que GAI2, la motiline, MRAMP, HMLHl, etc. En realite, aucun des differents 
genes candidats etudies n'a actuellement fait la preuve definitive de son role dans la 

25 survenue des MICI. 

Le recent developpement de cartes du genome humain utilisant des 
marqueurs genetiques hautement polymorphes a permis aux geneticiens de 
developper une approche non ciblee sur I'ensemble du genome. Cette demarche, 
appelee aussi genetique inverse ou clonage positionnel, ne fait aucune hypothese sur 

30 les genes impliques dans la maladie et tente de decouvrir ceux-ci a travers un 
criblage systematique du genome. La methode la plus utilisee pour les maladies 
genetiques complexes repose sur I'etude de I'identite par la descendance des 
malades d'une meme famille. Cette valeur est calculee pour un grand nombre (300- 
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400) de marqueurs de po]ymorphisme repartis regvherement (tovs Jes lOcM) sur Je 
genome. En cas d'exces d'identite entre malades, ]e(s) niarqueur(s) teste(s) 
indique(nt) une region supposee contenir un gene de susceptibilite a la maladie. 
Dans le cas des maladies genetiques complexes, le modele sous-jacent a la 
5 predisposition genetique (nombre de genes et importance respective de chacun 
d'entre eux) etant inconnu, les methodes statistiques a utiliser devront etre adaptees. 

La presente invention concerne la mise en evidence de la sequence 
nucleique de genes impliques dans les MICI, et d'autres maladies inflammatoires, 
ainsi que Tutilisation de ces sequences nucleiques. 

10 Dans le cadre de la presente invention, des travaux preliminaires des 

inventeurs ont deja permis de localiser un gene de susceptibilite a la MC. En effet, 
les inventeurs (Hugot et ah, 1996) ont montre qu'un gene de susceptibilite a la MC 
etait localise dans la region pericentromerique du chromosome 16 (figure 1). II 
s*agissait du premier gene de susceptibilite a une maladie genetique complexe 

15 localise par clonage positionnel et satisfaisant aux criteres stricts proposes dans la 
litterature (Lander et Kruglyak, 1995). Ce gene a ete nomme IBDl (pour 
Inflammatory Bowel Disease 1). Depuis, d'autres localisations ont ete proposees par 
d'autres auteurs en particulier sur les chromosomes 12, 1, 3, 6 et 7 (Satsangi et al, 
1996 ; Cho et al., 1998), Bien que localises, aucun de ces genes de susceptibilite 

20 aux IvnCI n'a actuellement pu etre identifie. 

Certains auteurs n'ont pu repliquer cette localisation (Rioux et al, 1998), 
Ceci n'est cependant pas surprenant dans le cas de maladies genetiques complexes 
ou une heterogeneite genetique est probable, 

II est interessant de noter que selon la meme approche de clonage 

25 positionnel, des localisations ont aussi ete proposees sur le chromosome 16 pour 
plusieurs maladies immunes et inflammatoires telles que la spondylarthrite 
ankyiosante, le syndrome de Blau, le psoriasis, etc. (Becker et a]., 1998 ; Tromp et 
al., 1996). Toutes ces maladies pourraient alors partager un meme gene (ou un 
meme groupe de genes) localise sur le chromosome 16. 

30 Le maximum des tests de liaison genetique est situe pratiquement toujours a 

la meme position, au niveau de D16S409 ou D16S411 separes seulement de 2cM. 
Ce resultat est en opposition avec la taille importante (habituellement superieure a 
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20cM) de Tintervalle de confiance attribuable a la localisation genetique selon une 
demarche utilisant des analyses de liaison non parametriques. 

La comparaison des tests statistiques utilises dans les travaux des inventeurs 
montre que les tests bases sur I'identite par descendance complete (Tz2) sent 
5 meilleurs que les tests base sur la moyenne de I'identite par descendance (Tz) (fig. 
1). Une telle' difference peut etre expliquee par un effet recessif de IBDl. 

Plusieurs genes connus dans la region pericentromerique du chromosome 
16, tels que le recepteur a I'interleukine 4, CD19, CD43, CDl 1, apparaissent comme 
de bons candidats potentials pour la MC. Des resultats preliminaires ne plaident 
1 0 cependant pas en faveur de Timplication de ces genes dans la MC. 

En particulier, la presente invention fournit la sequence non seulement du 
gene DBDl, mais egalement la sequence partielle d'un autre gene, appele IBDIprox 
en raison de sa localisation a proximite d'IBD, et mis en evidence comme rapporte 
dans les exemples ci-apres. Ces genes dont la sequence d'ADNc correspond 
1 5 respectivement a SEQ ID N° 1 et SEQ ID N° 4 sont done potentiellement impliques 
dans de nombreuses maladies inflammatoires et/ou immunes ainsi que dans des 
cancers. 

La sequence peptidique exprimee par les genes IBDl et IBDIprox est 
representee par SEQ ID N"^ 2 et SEQ ID N° 5 respectivement; la sequence 
20 genomique de ces genes est representee par SEQ ID N° 3 et SEQ ID 6 
respectivement. 

Ainsi, la presente invention a pour objet un acide nucleique purifie ou isole, 
caracterise en ce qu'il comprend une sequence nucleique choisie dans le groupe de 
sequences suivantes : 
25 a) SEQIDNM,SEQIDN°3,SEQIDN°4etSEQIDN°6; 

b) la sequence d'un fragment d'au moins 15 nucleotides consecutifs 
d'une sequence choisie parmi SEQ ID N° 1, SEQ ID N° 3, SEQ 
IDNMou SEQ IDN^6; 

c) une sequence nucleique presentant un pourcentage d'identite 
30 d'au moins 80 %, apres alignement optimal avec une sequence 

defmie en a) ou b) ; 

d) une sequence nucleique s'hybridant dans des conditions de forte 
stringence avec une sequence nucleique defmie en a) ou b) ; 
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e) la sequence coniplementaire ou la sequence de TAIIN 
conrespondant a une sequence telle que definie en a), b), c) ou d). 
La sequence d'acides nucleiques selon Tinvention definie en c) presente un 
pourcentage d'identite d'au moins 80 % apres alignement optimal avec une 
5 sequence telle que definie en a) ou b) ci-dessus, de preference 90 %, de fafon la 
plus preferee 98 %. 

Par acide nucleique, sequence nucleique ou d'acide nucleique, 
polynucleotide, oligonucleotide, sequence de polynucleotide, sequence 
nucleotidique, termes qui seront employes indifferemment dans la presente 

10 description, on entend designer un enchainement precis de nucleotides, modifies ou 
non, permettant de definir un fragment ou une region d'un acide nucleique, 
comportant ou non des nucleotides non naturels, et pouvant correspondre aussi bien 
a un ADN double brin, un ADN simple brin que des produits de transcription 
desdits AJDNs. Ainsi, les sequences nucleiques selon I'invention englobent 

1 5 egalement les PNA (Peptid Nucleic Acid), ou analogues. 

II doit etre eompris que la presente invention ne concerne pas les sequences 
nucleotidiques dans leur environnement chromosomique naturel, c'est-a-dire a Tetat 
naturel. II s'agit de sequences qui ont ete isolees et/ou purifiees, c'est-a-dire qu'elles 
ont ete prelevees directement ou indirectement, par exemple par copie, leur 

20 environnement ayant ete au moins partiellement modifie. On entend ainsi egalement 
designer les acides nucleiques obtenus par synthese chimique. 

Par « pourcentage d'identite » entre deux sequences d'acides nucleiques ou 
d'acides amines au sens de la presente invention, on entend designer un 
pourcentage de nucleotides ou de residus d'acides amines identiques entre les deux 

25 sequences a comparer, obtenu apres le meilleur alignement, ce pourcentage etant 
purement statistique et les differences entre les deux sequences etant reparties au 
hasard et sur toute leur longueur. On entend designer par "meilleur alignement" ou 
"alignement optimal", Talignement pour lequel le pourcentage d'identite determine 
comme ci-apres est le plus eleve. Les comparaisons de sequences entre deux 

30 sequences d'acides nucleiques ou d'acides amines sont traditionnellement realisees 
en comparant ces sequences apres les avoir alignees de maniere optimale, ladite 
comparaison etant realisee par segment ou par « fenetre de comparaison » pour 
identifier et comparer les regions locales de similarite de sequence. L'alignement 
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optimal des sequences pour la comparaison peut etre realise, outre manuellement, 
au moyen de ralgorithme d'homologie locale de Smith et Waterman (1981), au 
moyen de ralgorithme d'homologie locale de Neddleman et Wunsch (1970), au 
moyen de la methode de recherche de similarite de Pearson et Lipman (1988), au 
5 moyen de logiciels informatiques utilisant ces algorithmes (GAP, BESTFIT, 
BLAST P, BLAST H FASTA et TFASTA dans le Wisconsin Genetics Software 
Package, Genetics Computer Group, 575 Science Dr., Madison, WI). Afm d'obtenir 
Talignement optimal, on utilise de preference le programme BLAST, avec la 
matrice BLOSLTM 62. On peut egalement utiliser les matrices PAM ou PAM250. 

10 Le pourcentage d'identite entre deux sequences d'acides nucleiques ou 

d'acides amines est determine en comparant ces deux sequences alignees de 
maniere optimaie, la sequence d'acides nuCleiques ou d'acides amines a comparer 
pouvant comprendre des additions ou des deletions par rapport a la sequence de 
reference pour un alignement optimal entre ces deux sequences. Le pourcentage 

15 d'identite est calcule en determinant le nombre de positions identiques pour 
lesquelles le nucleotide ou le residu d'acide amine est identique entre les deux 
sequences, en divisant ce nombre de positions identiques par le nombre total de 
positions comparees et en multipliant le resultat obtenu par 100 pour obtenir le 
pourcentage d'identite entre ces deux sequences. 

20 Par sequences nucleiques presentant un pourcentage d'identite d'au 

moins 80 %, de preference 90 %, de fa9on plus preferee 98 %, apres alignement 
optimal avec une sequence de reference, on entend designer les sequences 
nucleiques presentant, par rapport a la sequence nucleique de reference, certaines 
modifications comme en particulier une deletion, une troncation, un allongement, 

25 une fusion chimerique, et/ou une substitution, notamment ponctuelle, et dent la 
sequence nucleique presente au moins 80 %, de preference 90 %, de fafon plus 
preferee 98 %, d'identite apres alignement optimal avec la sequence nucleique de 
reference. II s'agit de preference de sequences dont les sequences complementaires 
sont susceptibles de s'hybrider specifiquement avec les sequences SEQ ID N° 1 ou 

30 SEQ ID N° 4 de T invention. De preference, les conditions d' hybridation specifiques 
ou de forte stringence seront telles qu'elles assurent au moins 80 %, de preference 
90 %, de fafon plus preferee 98 % d'identite apres alignement optimal entre Tune 
des deux sequences et la sequence complementaire de I'autre. 
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Une hybridation dans des conditions de forte stringence signifie que les 
conditions de temperature et de force ionique sont choisies de telle maniere qu'elles 
permettent le maintien de Thybridation entre deux fragments d'ADN 
complementaires. A titre illustratif, des conditions de forte stringence de Tetape 
5 d'hybridation aux fins de defmir les fragments polynucleotidiques decrits ci-dessus, 
sont avantageusement les suivantes. 

L'hybridation ADN-ADN ou ADN-ARN est realisee en deux etapes : (1) 
prehybridation a 42°C pendant 3 heures en tampon phosphate (20 mM, pH 7,5) 
contenant 5 x SSC (1 x SSC correspond a une solution 0,15 M NaCl + 0,015 M 

10 citrate de sodium), 50 % de formamide, 7 % de sodium dodecy] sulfate (SDS), 10 x 
Denhardt's, 5 % de dextran sulfate et 1 % d'ADN de sperme de saumon ; (2) 
hybridation proprement dite pendant 20 heures a une temperature dependant de la 
taille de la sonde (i.e. : Al^'C, pour une sonde de taille > 100 nucleotides) suivie de 2 
lavages de 20 minutes a 20°C en 2 x SSC + 2 % SDS, 1 lavage de 20 minutes a 

15 20°C en 0,1 x SSC + 0,1 % SDS. Le dernier lavage est pratique en 0,1 x SSC 0,1 
% SDS pendant 30^minutes a 60°C pour une sonde de taille > 100 nucleotides. Les 
conditions d'hybridation de forte stringence decrites ci-dessus pour un 
polynucleotide de taille defmie, peuvent etre adaptees par I'homme du metier pour 
des oligonucleotides de taille plus grande ou plus petite, selon I'enseignement de 

20 Sambrooket al., 1989. 

Parmi les sequences nucleiques presentant un pourcentage d'identite d'au 
moins 80 %, de preference 90 %, de fa9on plus preferee 98 %, apres alignement 
optimal avec la sequence selon I'invention, on prefere egalement les sequences 
nucleiques variantes de SEQ ID N"" 1, ou de SEQ ID N'' 4, ou de leurs fragments, 

25 c'est-a-dire Tensemble des sequences nucleiques correspondant a des variants 
alleliques, c'est-a-dire des variations individuelles des sequences SEQ ID N° 1 ou 
SEQ ID N"^ 4. Ces sequences mutees naturelles correspondent a des 
polymorphismes presents chez les mamniiferes, en particulier chez Tetre humain et, 
notamment, a des polymorphismes pouvant conduire a la survenue d'une 

30 pathologic. De preference, la presente invention concerne les sequences nucleiques 
variantes dans lesquelles les mutations conduisent a une modification de la 
sequence, d'acides amines du polypeptide, ou de ses fragments, codes par la 
sequence normale de SEQ ID N"* 1 ou SEQ ID N"" 4. 
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On entend egalement designer par sequence nucleique variante tout ARN ou 
ADNc resultant d'une mutation et/ou variation d'un site d'epissage de la sequence 
nucleique genomique dont TADNc a pour sequence SEQ DD N° ] ou SEQ ID N° 4. 

L'invention concerne de preference un acide nucleique purifie ou isole selon 
5 la presente invention, caracterise en ce qu'il comprend ou est constitue de Tune des 
sequences SEQ ID N° 1 ou SEQ ID N° 4, de leurs sequences complementaires ou 
des sequences de TARN correspondant a SEQ ID ou SEQ ID N° 4. 

Les amorces ou sondes, caracterisees en ce qu'elles comprennent une 
sequence d'un acide nucleique selon T invention, font egalement partie de 
10 r invention. 

Ainsi, la presente invention concerne egalement les amorces -ou les sondes 
selon l'invention qui peuvent permettre en jparticulier de mettre en evidence ou de 
discriminer les sequences nucleiques variantes, ou d'identifier la sequence 
genomique des genes dont TADNc est represente par SEQ ID N° 1 ou SEQ ID N"^ 

15 4, en utilisant notamment une methode d' amplification telle que la methode PGR, 
ou une methode apparentee. 

L'invention concerne egalement Tutilisation d'une sequence d'acide 
nucleique selon l'invention comme sonde ou amorce, pour la detection, 
Pidentification, le dosage ou Tamplification de sequence d'acide nucleique. 

20 Selon T invention, les polynucleotides pouyant etre utilises comme sonde ou 

comme amorce dans des precedes de detection, d'identification, de dosage ou 
d'amplification de sequence nucleique, presentent une taille minimale de 15 bases, 
de preference de 20 bases, ou mieux de 25 a 30 bases. 

Les sondes et amorces selon Tinvention peuvent etre marquees directement 

25 ou indirectement par un compose radioactif ou non radioactif par des methodes bien 
connues de Thomme du metier, afm d'obtenir un signal detectable et/ou 
quantifiable. 

Les sequences de polynucleotides selon l'invention non marquees peuvent 
etre utilisees directement comme sonde ou amorce. 
30 Les sequences sont generalement marquees pour obtenir des sequences 

utilisables pour de nombreuses applications. Le marquage des amorces ou des 
sondes selon l'invention est realise par des elements radioactifs ou par des 
molecules non radioactives. 
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Parmi les isotopes radioactifs utilises, on peut citer le ^^P, le "^^P, le ^^S, le 
ou le ^^^I. Les entiles non radioactives sent selectionnees parmi les ligands tels la 
biotine, I'avidine, la streptavidine, la dioxygenine, les haptenes, les colorants, les 
agents luminescents tels que les agents radioluminescents, chemoluminescents, 
5 bioluminescents, fluorescents, phosphorescents. 

Les polynucleotides selon I'invention peuvent ainsi etre utilises comme 
amorce et/ou sonde dans des procedes mettant en oeuvre notamment la technique de 
PGR (amplification en chaine par polymerase) (Rolfs et al.,- 1991). Cette technique 
necessite le choix de paires d' amorces oligonucleotidiques encadrant le fragment 

1 0 qui doit etre amplifie. On peut, par exemple, se referer a la technique decrite dans le 
brevet americain U.S. N° 4,683,202. Les fragments amplifies peuvent etre 
identifies, par exemple apres une electrophorese en gel d'agarose ou de 
polyacrylamide, ou apres une technique chromatographique comme la filtration sur 
gel ou la chromatographie echangeuse d'ions, puis sequences. La specificite de 

15 r amplification peut etre controlee en utilisant comme amorces les sequences 
nucleotidiques de polynucleotides de Tinvention et comme matrices, des plasmides 
contenant ces sequences ou encore les produits d' amplification derives. Les 
fragments nucleotidiques amplifies peuvent etre utilises comme reactifs dans des 
reactions d 'hybridation afin de mettre en evidence la presence, dans un echantillon 

20 biologique, d'un acide nucleique cible de sequence coniplementaire a celle desdits 
fragments nucleotidiques amplifies. 

L'invention vise egalement les acides nucleiques susceptibles d'etre obtenus 
par amplification a I'aide d'amorces selon l'invention. 

D'autres techniques d'amplification de Tacide nucleique cible peuvent etre 

25 avantageusement employees comme alternative a la PGR (PGR-like) a Taide de 
couple d'amorces de sequences nucleotidiques selon l'invention. Par PCR-like on 
entend designer toutes les methodes mettant en oeuvre des reproductions directes ou 
indirectes des sequences d'acides nucleiques, ou bien dans lesquelles les systemes 
de marquage ont ete amplifies, ces techniques sont bien entendu connues. En 

30 genera] il s'agit de 1' amplification de TADN par une polymerase ; lorsque 
Techanfillon d'origine est un ARN il convient prealablement d'efFectuer une 
transcription reverse. II existe actuellement de tres nombreux procedes permettant 
cette amplification, comme par exemple la technique SDA (Strand Displacement 



BNSDOCID: <W0 ^0172822A2J_> 



wo 01/72822 



10 



PCT/FRO 1/00935 



Amplification) ou technique d 'amplification a deplacement de brin (Walker et al., 
1992), la technique TAS (Transcription-based Amplification System) decrite par 
Kwoh et al (1989), la technique 3SR (Self- Sustained Sequence Replication) decrite 
par Guatelli et al. (1990), la technique NASBA (Nucleic Acid Sequence Based 
5 Amplification) decrite par Kievitis et al. (1991), la technique TMA (Transcription 
Mediated Amplification), la technique LCR (Ligase Chain Reaction) decrite par 
Landegren et al. (1988), la technique de RCR (Repair Chain Reaction) decrite par 
Segev (1992), la technique CPR (Cycling Probe Reaction) decrite par Duck et al. 
^ (1990), la technique d' amplification a la Q-beta~replicase decrite par Miele et al, 

1 0 (1983). Certaines de ces techniques ont depuis ete perfectionnees. 

Dans le cas ou le polynucleotide cible a detecter est un ARNm, on utilise 
avantageusement, prealablement a la mise en oeuvre d'une reaction d'amplification 
a I'aide des amorces selon I'invention ou a la mise en oeuvre d'un procede de 
detection a I'aide des sondes de I'invention, une enzyme de type transcriptase 

15 inverse afin d'obtenir un ADNc a partir de I'ARNm contenu dans Techantillon 
biologique. L'ADNc obtenu servira alors de cible pour les amorces ou les sondes 
mises en oeuvre dans ie procede d'amplification ou de detection selon Tinvention. 

La technique d'hybridation de sondes peut etre realisee de manieres diverses 
(Matthews et al., 1988). La methode la plus generale consiste a immobiliser I'acide 

20 nucleique extrait des cellules de differents tissus ou de cellules en culture sur un 
support (tels que la nitrocellulose, le nylon, le polystyrene) et a incuber, dans des 
conditions bien defmies, I'acide nucleique cible immobilise avec la sonde. Apres 
I'hybridation, Texces de sonde est elimine et les molecules hybrides formees sont 
detectees par la methode appropriee (mesure de la radioactivite, de la fluorescence 

25 ou de I'activite enzymatique liee a la sonde). 

Selon un autre mode de mise en oeuvre des .sondes nucleiques selon 
r invention, ces dernieres peuvent etre utilisees comme sondes de capture. Dans ce 
cas, une sonde, dite « sonde de capture », est immobilisee sur un support et sert a 
capturer par hybridation specifique I'acide nucleique cible obtenu a partir de 

30 I'echantillon biologique a tester et I'acide nucleique cible est ensuite detecte grace a 
une seconde sonde, dite « sonde de detection », marquee par un element facilement 
detectable. 
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Parmi les fragments d'acides nucleiques interessants, il faut ainsi citer en 
partictilier les oligonucleotides anti-sens, c'est-a-dire dont la structure assure, par 
hybridation avec la sequence cible, une inhibition de T expression du produit 
correspondant. II faut egalement citer les oligonucleotides sens qui, par interaction 
5 avec des proteines impliquees dans la regulation de Texpression du produit 
correspondant, induiront soit une inhibition, soit une activation de cette expression. 

Dans les deux cas (sens et anti-sens), les oligonucleotides de I'invention 
peuvent etre utilises in vitro et in vivo. 

La presente invention concerne egalement un polypeptide isole caracterise 
10 en ce qu'il comprend un polypeptide choisi parmi : 

a) un polypeptide de sequence SEQ ID N° 2 ou SEQ ID N° 5 ; 

b) un polypeptide variant d'un polypeptide de sequence defmie en 

a); 

c) un polypeptide homologue a un polypeptide defini en a) ou b), 
15 comportant au moins 80 % d'identite avec ledit polypeptide de 

a); 

d) un fragment d'au moins 15 acides amines ccnsecutifs d'un 
polypeptide defmi en a) , b) ou c) ; 

e) un fragment biologiquement actif d'un polypeptide defmi en a), 
20 b) ou c). 

Par « polypeptide », on entend, au sens de la presente invention, designer 
des proteines ou des peptides.. 

Par « fragment biologiquement actif », on entend un fragment possedant la 
meme activite biologique que le fragment peptidique dont il est deduit, de 

25 preference dans le meme ordre de grandeur (a un facteur 10 pres). Ainsi, les 
exemples montrent que la proteine IBDl (SEQ ID N° 2) a un role potentieJ dans les 
phenomenes d'apoptose. Un fragment biologiquement actif de la proteine IBDl 
consiste done en un polypeptide issu de SEQ ID N° 2 possedant egalement un role 
dans I'apoptose. Les exemples ci-apres proposent des fonctions biologiques pour les 

30 proteines IBDl et EBDlprox, en fonction des domaines peptidiques de ces proteines 
et permettent ainsi a I'homme du metier d'identifier les fragments biologiquement 
actifs. 
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De preference un polypeptide selon I'invention est un polypeptide constitue 
de la sequence SEQ ID N° 2 (correspondant a la proteine codee par le gene IBDl) 
ou de la sequence SEQ ID N° 5 (correspondant a la proteine codee par IBDlprox) 
ou d'une sequence possedant au moins 80 % d'identite avec SEQ ID N° 2 ou SEQ 
5 ID N° 5 apres alignement optimal. 

La sequence du polypeptide presente un pourcentage d'identite d'au moins 
80 % apres alignement optimal avec les sequences SEQ ID N° 2 ou SEQ ID N° 5, 
de preference 90 %, de fafon plus preferee 98 %. 

Par polypeptide dont la sequence d'acides amines presentant un pourcentage 

10 d'identite d'au moins 80 de preference 90 %, de fa9on plus preferee 98 %, apres 
alignement optimal avec une sequence de reference, on entend designer les 
polypeptides presentant certaines modifications par rapport au polypeptide de 
reference, comme en particulier une ou plusieurs deletions, troncations, un 
allongement, une fusion chimerique, et/ou une ou plusieurs substitutions. 

15 Parmi les polypeptides dont la sequence d'acides amines presentant un 

pourcentage d'identite d'au moins 80 %, de preference 90 %, de fa9on plus preferee 
98 %, apres alignement optimal avec les sequences SEQ ID N° 2, SEQ ID N° 5 ou 
avec Tun de leurs fragments selon T invention, on prefere les polypeptides variants 
codes par les sequences nucleiques variantes telles que precedemment defmies, en 

20 particulier les polypeptides dont la sequence d'acides amines presente au moins une 
mutation correspondant notamment a une troncation, deletion, substitution et/ou 
addition d'au moins un residu d'acide amine par rapport aux sequences SEQ ID N° 
2, SEQ ID N"^ 5 ou avec I'un de leurs fragments, de maniere plus preferee les 
polypeptides variants presentant une mutation liee a une pathologie. 

25 La presente invention concerne egalement les vecteurs de clonage et/ou 

d'expression comprenant un acide nucleique ou codant pour un polypeptide selon 
I'invention. Un tel vecteur peut egalement contenir les elements necessaires a 
r expression et eventuellement a la secretion du polypeptide dans une cellule hote. 
Une telle cellule bote est egalement un objet de I'invention.. 

30 Les vecteurs caract crises en ce qu'ils comport ent une sequence de 

promoteur et/ou de regulateur selon T invention, font egalement partie de 
I'invention. 
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Lesdits vecteurs comportent de preference un promoteuFj des signaux 
d'initiation et de terminaison de la traduction, ainsi que des regions appropriees de 
regulation de la transcription. lis doivent pouvoir etre maintenus de fa^on stable 
dans la cellule et peuvent eventuellement posseder des signaux particuiiers 
5 specifiant la secretion de la proteine traduite. 

Ces differents signaux de controle sent choisis en fonction de I'hote 
cellulaire utilise. A cet effet, les sequences d'acide nucleique selon Tinvention 
peuvent etre inserees dans des vecteurs a replication autonome au sein de I'hote 
choisi, ou des vecteurs integratifs de Thote choisi. 

10 Parmi les systemes a replication autonome, on utilise de preference en 

fonction de la cellule bote, des systemes de type plasmidique ou viral, les vecteurs 
viraux pouvant notamment etre des adenovirus (Perricaudet et al., 1992), des 
retrovirus, des lentivirus, des poxvims ou des virus herpetiques (Epstein et a!., 
1992). L'homme du metier connait les technologies utilisables pour chacun de ces 

15 systemes. 

Lorsque Ton souhaite Tintegration de la sequence dans les chromosomes de 
la cellule bote, on peut utiliser par exemple des systemes de type plasmidique ou 
viral ; de tels virus sont, par exemple, les retrovirus (Temin, 1986), ou les AAV 
(Carter, 1993). 

20 Parmi les vecteurs non viraux, on prefere les polynucleotides nus tels que 

I'ADN nu ou TARN nu selon la technique developpee par la societe VICAL, les 
chromosomes artificiels de bacterie (BAC, bacterial artificial chromosome), les 
chromosomes artificiels. de levure (YAC, yeast artificial chromosome) pour 
r expression dans la levure, les chromosomes artificiels de souris (MAC, mouse 

25 artificial chromosome) pour I'expression dans les cellules murines et de maniere 
preferee les chromosomes artificiels d'homme (HAC, human artificial 
chromosome) pour I'expression dans les cellules humaines. 

De tels vecteurs sont prepares selon les methodes couramment utilisees par 
Thomme du metier, et les clones en resultant peuvent etre introduits dans un bote 

30 approprie par des methodes standard, telles que par example la lipofection, 
Telectroporation, le choc thermique, la transformation apres permeabilisation 
chimique de la membrane, la fusion cellulaire. 
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L'invention comprend en outre les cellules botes, notamment les cellules 
eucaryotes et procaryotes, transfomiees par les vecteurs selon Tinvention ainsi que 
les animaux transgeniques, de preference les raammiferes, excepte rHomme^ 
comprenant une desdites cellules transforrnees selon Tinvention. Ces animaux 
5 peuvent etre utilises en temps que modeles, pour Tetude de I'etiologie de maladies 
inflammatoires et/ou ininiunes, et en particulier des maladies inflammatoires du 
tube digestif, ou pour 1' etude de cancers. 

Parmi les cellules utilisables aux sens de la presente invention, on peut citer 
les cellules bacteriennes (Olins et Lee, 1993), mais aussi les cellules de levure 
10 (Buckholz, 1993), de meme que les cellules animales, en particulier les cultures de 
cellules de mammiferes (Edwards et Aruffo, 1993), et notamment les cellules 
d'ovaire de hamster chinois (CHO). On peuf citer egalement les cellules d'insectes 
dans lesquelles on peut utiliser des precedes mettant par exemple en oeuvre des 
baculovirus (Luckow, 1993). Un bote cellulaire prefere pour Texpression des 
1 5 proteines de Tinvention est constitue par les cellules COS. 

Parmi les mammiferes selon Tinvention, on prefere des animaux tels que les 
rongeurs, en particulier les souris, les rats ou les iapins, exprimant un polypeptide 
selon rinvention. 

Parmi les mammiferes selon T invention, on prefere egalement des animaux 
20 tels que les souris, les rats ou les lapins, caracterises en ce que le gene codant pour 

la proteine de sequence SEQ ID N° 2 ou SEQ ID N° 5, ou dont la sequence est 

codee par le gene homologue chez ces animaux, n'est pas fonctionnel, est invalide 

ou presente au moins une mutation. 

Ces animaux transgeniques sont obtenus par exemple par recombinaison 
25 homologue sur cellules souches embryonnaires, transfert de ces cellules souches a 

des embryons, selection des chimeres affectees au niveau des lignees 

reproductrices, et croissance desdites chimeres. 

Les animaux transgeniques selon I'invention peuvent ainsi surexprimer le 

gene codant pour la proteine selon T invention, ou leur gene homologue, ou 
30 exprimer ledit gene dans lequel est • introduite une mutation. Ces animaux 

transgeniques, en particulier des souris, sont obtenus par exemple par transfection 

de copie de ce gene sous, controle d'un promoteur fort de nature ubiquitaire, ou 

selectif d'un type de tissu, ou apres transcription virale. 
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AJternativement, les animaux transgeniques selon i 'invention peuvent etre 
rendus deficients pour le gene codant pour Tun des polypeptides de sequences SEQ 
ID N° 2 ou SEQ ID N° 5, ou leurs genes homologues, par inactivation a Faide du 
systeme LOXP/CRE recombinase (Rohlmann et al, 1996) ou detout autre systeme 
5 d'inactivation de T expression de ce gene. 

Les cellules et mammiferes selon Tinvention sont utilisables dans une 
methode de production d'un polypeptide selon Tinvention, comme decrit ci- 
dessous, et peuvent egalement servir a titre de modele d'analyse. 

Les cellules ou mammiferes transformes tels que decrits precedemment 
10 peuvent aussi etre utilises a titre de modeles afin d'etudier les interactions entre les 
polypeptides selon I'invention, et les composes chimiques ou proteiques, impliques 
directement ou indirectement dans les activites des polypeptides selon Tinvention, 
ceci afm d'etudier les differents mecanismes et interactions mis en jeu. 

Us peuvent en particulier etre utilises pour la selection de produits 
15 interagissant avec les polypeptides selon I'invention, notamment la proteine de 
sequence SEQ ID N"" 2 ou SEQ ID N'' 5 ou leurs variants selon T invention, a titre 
de cofacteur, ou d'inhibiteur, notamment competitif. ou encore ayant une activite 
agoniste ou antagoniste de I'activite des polypeptides selon I'invention. De 
preference, on utilise lesdites cellules transformees ou animaux transgeniques a titre 
20 de modele notamment pour la selection de produits permettant de lutter contre les 
pathologies liees a une expression anormale de ce gene. 

L'invention concerne egalement I'utilisation d'une cellule, d'un mammifere 
ou d'un polypeptide selon Tinvention pour le criblage de composes chimiques ou 
biochimiques pouvant interagir directement ou indirectement avec les polypeptides 
25 selon I'invention, et/ou capable de moduler I'expression ou Tactivite de ces 
polypeptides. 

De la meme fa^on, ['invention concerne aussi un procede de criblage de 
composes capables d'interagir in vitro ou in vivo avec un acide nucleique selon 
rinvention, en utilisant un acide nucleique une cellule ou un mammifere selon 
30 I'invention, et en detectant la formation d'un complexe entre les composes 
candidats et Tacide nucleique selon Tinvention. 

Les composes ainsi selectionnes sont egalement objets de Tinvention. 
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L'inventioB concerne aussi Tutilisation d'une sequence d'acide nucleique 
salon rinvention pour la synthese de polypeptides recombinants. 

La methode de production d'un polypeptide de Tinvention sous forme 
. recombinante, elle-meme comprise dans la presente invention, se caracterise en ce 
5 que Ton cultive les cellules transformees, notamment les cellules ou mammiferes de 
la presente invention, dans des conditions perniettant T expression d'un polypeptide 
recombinant code par une sequence d'acide nucleique selon Tinvention, et que Ton 
recupere ledit polypeptide recombinant. 

Les polypeptides recombinants, caracterises en ce qu'ils sent susceptibles 
10 d'etre obtenus par ladite methode de production, font egalement partie de 
rinvention. 

Les polypeptides recombinants obtenus comme indique ci-dessus, peuvent 
aussi bien se presenter sous forme glycosylee que non glycosylee et peuvent 
presenter ou non la structure tertiaire naturelle. 

15 Les sequences des polypeptides recombinants peuvent etre egalement 

modifiees afin d'ameliorer leur solubilite, en particulier dans les solvants aqueux. 

De telles modifications sont connues de Thomme du metier comm.e par 
exemple la deletion de domaines hydrophobes ou la substitution d'acides amines 
hydrophobes par des acides amines hydrophiles. 

20 Ces polypeptides peuvent etre produits a partir des sequences d'acide 

nucleique defmies ci-dessus, selon les techniques de production de polypeptides 
recombinants connues de I'homme du metier. Dans ce cas, la sequence d'acide 
nucleique utilisee est placee sous le controle de signaux permettant son expression 
dans un hote cellulaire. 

25 Un systeme efficace de production d'un polypeptide recombinant necessite 

de disposer d'un vecteur et d'une cellule hote selon rinvention. 

Ces cellules peuvent etre obtenues par Tintroduction dans des cellules botes 
d'une sequence nucleotidique inseree dans un vecteur tel que defmi ci-dessus, puis 
la mise en culture desdites cellules dans des conditions permettant la repHcation 

30 et/ou r expression de la sequence nucleotidique transfectee. 

Les precedes utilises pour la purification d'un polypeptide recombinant sont 
connus de Thomme du metier. Le polypeptide recombinant peut etre purifie a partir 
de lysats et extraits cellulaires, du sumageant du milieu de culture, par des 
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methodes utilisees individuellement on en combinaison, telles que le 
fractionnement, les methodes de chromatographie, les techniques d'immunoaffinite 
a Taide d'anticorps monoclonaux ou polyclonaux specifjques, etc., 

Les polypeptides selon la presente invention peuvent aussi etre obtenus par 
5 synthese chimique en utilisant Tune des nombreuses syntheses peptidiques connues, 
par exemple les techniques mettant en oeuvre des phases solides (voir notamment 
Stewart et al, 1984) ou des techniques utilisant des phases solides partielles, par 
condensation de fragments ou par une synthese en solution classique. 

Les polypeptides obtenus par synthese chimique et pouvant comporter des 
10 acides amines non natureis correspondants sont egaJement compris dans Tinvention. 

Les anticorps mono- ou polyclonaux ou leurs fragments, anticorps 
chimeriques ou immunoconjugues, caracterises en ce qu'ils sont capables de 
reconnaitre specifiquement un polypeptide selon Tinvention, font partie de 
r invention. 

15 Des anticorps polyclonaux specifiques peuvent etre obtenus a partir d'un 

serum d'un animal immunise contre les polypeptides selon Tinvention, notamment 
produit par recom.binaison genetique ou par synthese peptidique, selon les modes 
operatoires usuels. 

On note notamment Tinteret d' anticorps reconnaissant de fa^on specifique 
20 certains polypeptides, variants, ou leurs fragments immunogenes, selon ] 'invention. 

Les anticorps mono- ou polyclonaux ou leurs fragments, anticorps 
chimeriques ou immunoconjugues, caracterises en ce qu'ils sont capables de 
reconnaitre specifiquement les polypeptides de sequence SEQ ID N° 2 ou SEQ ID 
N° 5 sont particulierement preferes, 
25 Les anticorps monoclonaux specifiques peuvent etre obtenus selon la 

methode classique de culture d'hybridomes decrite parKohler et Milstein (1975). 

Les anticorps selon Tinvention sont, par exemple, des anticorps 
chimeriques, des anticorps humanises, des fragments Fab ou F(ab')2. lis peuvent 
egalement se presenter sous forme d' immunoconjugues ou d' anticorps marques afm 
30 d'obtenir un signal detectable et/ou quantifiable. 

L'invention concerne egalement des methodes pour la detection et/ou la 
purification d'un polypeptide selon T invention, caracterisees en ce qu'elles mettent 
en oeuvre un anticorps selon T invention. 
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L' invention comprend en outre des polypeptides purifies, caracterises en ce 
qu'ils sont obtenus par une methode selon Tinvention. 

Par ailleurs, outre leur utilisation pour la purification des polypeptides, les 
anticorps de I'invention, en particulier les anticorps monoclonaux, peuvent 
5 egalement etre utilises pour la detection de ces polypeptides dans un echantillon 
biologique. 

lis constituent ainsi un moyen d'analyse immunocytochimique ou immuno- 
histochimique de I'expression des polypeptides selon I'invention, notamment les 
polypeptides de sequence SEQ ID N° 2, SEQ ID N° 5 ou Tun de leurs variants, sur 
1 0 des coupes de tissus specifiques, par exemple par immunofluorescence, marquage a 
Tor, immuno-conjugues enzymatiques. 

lis peuvent permettre notamment de mettre en evidence une . expression 
anormale de ces polypeptides dans les tissus ou prelevements biologiques. 

Plus generalement, les anticorps de 1' invention peuvent etre 
15 avantageusement mis en oeuvre dans toute situation ou Texpression d'un 
polypeptide selon Tinvention, normal ou mute, doit etre observee. 

Ainsi, un precede de detection d'un polypeptide selon Tinvention dans un 
echantillon biologique, comprenant les etapes de mise en contact de Techantillon 
biologique avec un anticorps selon Tinvention et de mise en evidence du complexe 
20 antigene-anticorps forme est egalement un objet de 1 'invention, ainsi qu'une trousse 
permettant de mettre en oeuvre un tel precede. Une telle trousse contient en 
particulier : 

a) un anticorps monoclonal ou polyclonal selon I'invention ; 

b) eventuellement des reactifs pour la constitution d'un milieu 
25 propice a la reaction immunologique ; 

c) les reactifs permettant la detection du complexe antigene- 
anticorps produit lors de la reaction immunologique. 

Les anticorps selon Tinvention peuvent egalement etre utilises dans le 
traitement d'une maladie inflammatoire et/ou immune, ou d'un cancer, chez 
30 rhomme, lorsque Ton observe une expression anormale du gene IBDl ou du gene 
IBDlprox. Une expression anormale signifie une surexpression ou T expression 
d'une proteine mutee. 
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Ces anticorps peuvent etre obtenus directement a partir de serum humain, ou 
a partir d'animaux immunises avec des polypeptides selon rinvention, puis 
« humanises », et peuvent etre utilises tels quels ou dans la preparation d'un 
medicament destine au traitement des maladies precitees. 
5 Font egalement partie de 1' invention, les methodes de determination d'une 

variabilite allelique, d'une mutation, d'une deletion, d'une parte d'heterozygotie ou 
de toute anomalie genetique du gene selon Tinvention, caracterisees en ce qu'elles 
mettent en oeuvre une sequence d'acide nucleique, un polypeptide ou un anticorps 
selon I'invention. 

10 L'invention foumit en effet la sequence des genes IBDl et EBDlprox 

impliques dans des maladies inflammatoires et/ou immunes, et en particulier -les 
MICL Un des enseignements de Tinvention est de preciser les mutations dans ces 
sequences nucleiques ou polypeptidiques, qui sont liees a un phenotype 
coirespondant a une des ces maladies inflammatoires et/ou immunes. 

•15 On peut detecter ces mutations directement par analyse de Tacide nucleique 

et des sequences selon ' Tinvention (ADN genomique, ARN, ou ADNc),. mais 
egalement par I'intermediaire des polypeptides selon Tinvention. En particulier, 
r utilisation d'un anticorps selon T invention qui reconnait un epitope portant une 
mutation permet de discriminer entre une proteine « saine » et une proteine 

20 « associee a une pathologie », . 

Ainsi, I'etude du gene IBDl dans diverses maladies inflammatoires et/ou 
immunes humaines montre ainsi qu'ij existe des variants de sequence de ce gene 
dans la maladie de Crohn, la rectocolite hemonagique et le syndrome de Blau, 
comme demontre par les exemples. Ces variations de sequence aboutissent a des 

25 variations important es de la sequence proteique deduite. En effet, elles sont soit 
localisees sur des sites tres conserves de la proteine dans des domaines fonctionnels 
importants, soit elles aboutissent a la synthese d'une proteine tronquee. II est done 
extremement probable que ces alterations entrament une modification de la fonction 
de la proteine et aient done un effet causal dans la survenue de ces maladies. 

30 La variete des maladies oii sont observees ces mutations suggere que le gene 

IBDl est potentiellement important dans de nombreuses maladies inflammatoires 
et/ou immunes. Ce resultat est a rapprocher du fait que la region pericentromerique 
du chromosome 16 a ete decrite comme contenant des genes de susceptibilite a 
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diverses maladies humaines telles que la spondylarthrite ankylosante ou le 
rhumatisme psoriasique. On peut done considerer qu'IBDl a un role unportant dans 
un grand nombre de maladies inflammatoires et/ou immunes: 

En particulier, on , peut associer IBDl aux maladies inflammatoires 
5 granulomateuses. En effet, le Syndrome de Blau at !a MC sont des maladies faisant 
partie de cette famille/ On espere done trouver des variations dans le gene IBDl 
pour les autres maladies de la meme famille (sarcoidose, maladie de Beh9et. . .). 

De plus, Timplication de IBDl dans les voies cellulaires aboutissant a 
I'apoptose souleve la question de son eventuel role carcinogene. En effet, il est 
10 attendu qu'une dysregulation de IBDl puisse aboutir a une predisposition 
cancereuse. Cette hypothese est renforcee par le fait qu'il existe une predisposition 
au cancer du colon dans les maladies inflammatoires de I'intestin. IBDl pourrait en 
partie expliquer cette susceptibilite au cancer et defmir de nouvelles voies de 
carcinogenese. 

15 La description precise des mutations observables dans le gene IBDl permet 

ainsi de poser les bases d'un diagnostic moleculaire des maladies inflammatoires et 
immunes ou son role est demontre, Une telle demarche, basee sur la recherche de 
mutations dans le gene, permettra de contribuer au diagnostic de ces maladies et 
eventuellement de reduire I'importance de certains examens complementaires 

20 invasifs ou couteux. L'invention pose les bases d'un tel diagnostic moleculaire base 
sur la recherche de mutations dans IBDL 

Le diagnostic moleculaire des maladies inflammatoires devrait aussi 
permettre d'ameliorer la classification nosologique de ces maladies et de mieux 
defmir des sous-groupes de malades particuliers par leur caracteristiques cliniques, 

25 I'evolutivite de la maladie ou la reponse a certains traitenients. Atitre d'exemple, le 
demembrement des mutations existantes pourrah ainsi permettre de classer les 
oolites actuellement indeterminees qui representent plus de 10% des maladies 
inflammatoires de I'intestin. Une telle demarche permettra de proposer une prise en 
charge precoce adaptee a chaque patient. D'une maniere generale, une telle 

30 demarche permet d'esperer pouvoir defmir a terme une prise en charge 
individualisee de la maladie, en fonction du terrain genetique de chaque malade, 
incluant des mesures curatives et preventives. 
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En particulier, on prefere une methode de diagnostic et/ou d'evaluation 
pronostique d'une maladie inflammatoire ou d'un cancer caracterisee en ce qu'on 
determine a partir d'un prelevement biologique d'un patient la presence d'au moins 
une mutation et/ou une alteration d 'expression du gene correspondant a SEQ ID W 
5 1 ou SEQ ID N° 4 par Tanalyse de tout ou partie d'une sequence nucleique 
correspondant audit gene. On peut aussi etudier les genes SEQ ID N*^ 3 ou SEQ ED 
N° 6. 

Cette naethode de diagnostic et/ou d'evaluation pronostique peut etre utilisee 
de fagon preventive (etude d'une predisposition a ces maladies inflammatoires ou 
10 au cancer), ou afm de sen/ir a I'etablissement et/ou la confirmation d'un etat 
clinique chez un patient. 

De preference, la maladie inflammatoire est une maladie inflammatoire du 
tube digestif, et le cancer est un cancer du tube digestif (intestin grele ou colon). 

L'enseignement de T invention permet en effet de connaJtre les mutations 
15 presentant un desequilibre de liaison avec les maladies inflammatoires du tube 
digestif, et qui sont'donc associees a de telles maladies. 

L' analyse peut etre effectuee par sequence de tout ou partie du gene, ou par 
d'autres methodes connues de rhomme du metier. On peut en particulier utiliser 
des methodes basees sur la PGR, par exemple la PCR-SSCP qui permet de detecter 
20 des mutations ponctuelles. 

On peut egalement effectuer I'analyse par fixation d'une sonde selon 
r invention correspondant a Tune des sequences SEQ ID N° 1, 3, 4 ou 6 sur une 
puce a ADN et Fhybridation sur ces microplaques. Une puce a ADN contenant une 
sequence selon I'invention est egalement un des objets de I'invention, 
25 De meme, une puce a proteines contenant une sequence d'acides amines 

selon I'invention est aussi un objet de I'invention. Une telle puce a proteines permet 
I'etude des interactions entre les polypeptides selon I'invention et d'autres proteines 
ou des composes chimiques, et peut ainsi etre utile pour le criblage de composes 
interagissant avec les polypeptides selon I'invention. On peut egalement utiliser les 
30 puces a proteines selon I'invention pour detecter la presence d'anticorps diriges 
contre les polypetides selon I'invention dans le serum de patients. On peut aussi 
mettre en ceuvre une puce a proteines contenant un anticorps selon I'invention. 
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L'homine du metier sait egalement mettre en oeuvre des techniques 
permettant Tetude de Talteration de Texpression d'un gene, par exeniple par Tetude 
de r.AjySfm (en particulier par Northern Blot ou par des experiences de RT-PCR, 
avec des sondes ou des amorces selon T invention), ou de la proteine exprimee, en 
5 particulier par Western Blot, en utilisant des anticorps selon Tinvention, 

Le gene teste est de preference le gene de sequence SEQ ID N° 1, la n^aladie 
inflammatoire pour laquelle on cherche a predire la susceptibilite etant une maladie 
du tube digestif, en particulier la maladie de Crohn, ou la rectocolite hemorragique. 
Si Ton cherche a detecter un cancer, il s'agit de preference du cancer du colon. 
10 L'invention se rapporte egalement a des precedes d'obtention d'un allele du 

gene IBDl, associe a un phenotype detectable, comprenant les etapes suivantes : 

a) obtenirun echantillon d'acide nucleique d'un individu exprimant 
ledit phenotype detectable ; 

b) mettre en contact ledit echantillon d'acide nucleique avec un 
15 agent capable de detecter specifiquement un acide nucleique 

cpdant pour la proteine IBDl ; 

c) isoler ledit acide nucleique codant pour la proteine IBDl . 

Un tel precede peut etre suivi d'une etape de sequence de tout ou partie de 
I'acide nucleique codant pour la proteine IBDl, ce qui permet de predire la 

20 susceptibilite a une maladie inflammatoire ou d'un cancer 

L'agent capable de detecter specifiquement un acide nucleique codant pour 
la proteine IBDl est avantageusement une sonde d' oligonucleotides selon 
rinvention, qui peut etre formee d'ADN, d'AKN, de PNA, modifies ou non. Les 
modifications peuvent inclure un marquage radioactif ou fluorescent, ou etre dues a 

25 des modifications dans les Haisons entre les bases (phosphorothioates, ou 
methylphosphonates par exemple). L'homrae du metier connait les protocoles 
permettant d'isoler une sequence specifique d'ADN. Uetape b) du procede ci- 
dessus decrit peut egalement etre une etape d' amplification telle que decrite 
precedemment. 

30 L'invention se rapporte egalement a un procede de detection et/ou de dosage 

d'un acide nucleique selon Tinvention dans un echantillon biologique, comprenant 
les etapes suivantes de mise en contact d'une sonde selon l'invention avec un 
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echantillon biologique et de detection et/ou dosage de I'hybride forme entre ledit 
polynucleotide et I'acide nucleique de rechantillon biologique. 

L'homme du metier salt mettre en oeuvre un tel procede^ et peut en 
particulier utiliser une trousse de reactifs comprenant : 
5 a) un polynucleotide selon ['invention, utilise en tant que sonde ; 

b) les reactifs necessaires a la mise en oeuvre d'une reaction 
d'hybridation entre ladite sonde et Tacide nucleique de 
1' echantillon biologique ; 

c) les reactifs necessaires a la detection et/ou le dosage de Thybride 
10 forme entre ladite sonde et Tacide nucleique de I'echantillon 

biologique ; 
qui est egalement un objet de Tinvention. 

Une telle trousse peut egalement contenir des controles positifs ou negatifs 

afm d'assurer la qualite des resultats obtenus. 
15 Toutefois, afin de detecter et/ou doser un acide nucleique selon I'invention, 

rhomme du metier peut egalement effectuer une etape d'amplification a Taide 

d'amorces choisies parmi les sequences selon Tinventicn. 

Enfin, I'invention concerne egalement les composes choisis parmi un acide 

nucleique, un polypeptide, un vecteur, une cellule, ou un anticorps selon 
20 rinvention, ou les composes obtenus par les precedes de criblage selon Tinvention, 

a titre de medicament, en particulier pour la prevention et/ou le traitement d'une 

maladie inflammatoire et/ou immune ou d'un cancer, associe a la presence d'au 

moins une mutation du gene correspondant a SEQ ID N° 1 ou SEQ ID N° 4, de 

preference une maladie inflammatoire du tube digestif, en particulier la maladie de 
25 Crohn ou la rectocolite hemorragique. 

Les exemples qui suivent permettent de mieux comprendre les avantages de 

Tinvention et ne doivent pas etre consideres comme limitant la portee de 

I'invention. 

DESCRIPTION DES FIGURES 

30 Figure 1 : tests de liaison genetique non parametrique pour la maladie de Crohn 
dans la region pericentromerique du chromosome 16 (d'apres Hugot et aL, 1996). 
Analyse de liaison multipoint base sur I'identite par descendance pour les 
marqueurs de la region pericentromerique du chromosome 16. Les distances 
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genetiques entre marqueurs ont ete estimees grace au programme CRIMAP. Le lod 
score (MAPMAKER/SIBS) est indique sur la figure de gauche. Deux tests de 
pseudo vraisemblance ont ete developpes et rapportes sur la figure de droite. Le 
premier (Tz) est analogue au test des moyennes. Le deuxieme (Tz2) est analogue au 
5 test de la proportion des paires d'affectes partageant deux alleles. 

Figure 2 : analyse de liaison genetique multipoint non parametrique. 78 families 
avec plusieurs apparentes atteints de Maladie de Crohn ont ete genotypees pour 26 
marqueurs de polymorphisme dans la region pericentromerique du chromosome 16. 
La localisation de chaque marqueur est symbolisee par une fleche. L'ordre des 

10 marqueurs et -la distance les separant derive de Tanalyse des donnees 
experimentales avec le logiciel Crimap. Les fleches sous la courbe indiquent les 
marqueurs SPN, D16S409 et D16S4M utilises dans la premiere etude publiee 
(Hugot et al., 1996).Les fleches situees en haut de la figure correspondent aux 
marqueurs D16S3136, D16S541, D16S3117, D16S416 et D16S770 localises au 

15 maximum du test de liaison genetique, Les donnees de typage ont ete analysees a 
Taide du programme d'analyse multipoint non parametrique du logiciel Genehunter 
version 1.3. Le maximum du NPL Score est de 3^33 (p=0,0004). 
Figure 3 : representation schematique de la proteine codee par IBDl. La proteine 
codee par IBDl est representee horizontalement. Les differents domaines qui la 

20 composent soot indiques sur la figure avec le numero de reference des acides 
amines correspondant au debut et a la fm de chaque domaine. La proteine est 
constituee d'un domaine CARD, d'un domaine liant les nucleotides (NBD) et de 
motifs riches en leucines (LRR). 

Figure 4 : representation schematique de la proteine IBD1/N0D2 dans trois variants 
25 associes a MC. 

A : Le produit de traduction deduit de la sequence d'ADNc du gene candidat IBDl 
est identique a celui de N0D2 (Ogura et al., 2000). Le polypeptide contient 2 
domaines CARD (CAspase Recruitment Domains), un domaine de liaison aux 
nucleotides (InJBD) et 10 repetitions de 27 acides amines, des motifs riches en 
30 leucine (LRR). La sequence consensus du site du motif A (boucle P) liant 
TATP/GXP du NBD est indiquee par un cercle noir Les changements de sequences 
codes par les trois principaux variants associes a MC sont SNP 8 (R675W), SNP 12 
(G881R) et SNP 13 (deplacement de cadre 980). Le deplacement de cadre change 



BNSDOCID: <W0 0172822A2J_> 



wo 01/72822 



PCT/FROl/00935 



25 

un codon leucine en un codon proline a la position 980 qui est immediatement suivi 
par un codon stop. 

B : Variants faux sens rares de N0D2 chez 457 patients MC, 159 patients RCH et 
103 individus non apparentes, non atteints. Les positions des variants faux sens 
5 rares sont indiquees pour les trois groupes. L*echelle a gauche indique le nombre de 
chaque variant identifie dans les groupes faisant Tobjet de recherche et celle a 
droite mesure la frequence de la mutation. Les frequences alleliques du 
polymorphisme V92SI n'etaient pas significativement differentes( 0,92 : 0,08) dans 
les trois groupes et les genotypes correspondants etaient en equilibre Hardy- 
10 Weinberg. 

EXEMPLES 

Exemple 1 : localisation fine de IBDl 

La premiere etape vers I'identification du gene IBDl a ete de reduire la taille 

15 de la region genetique d'interet, initialement centree sur le marqueur D16S41 1 situe 
entre D16S409 et D16S419 (Hugot et al., 1996 et fig. 1). Un groupe de marqueurs 
proches (carte genetique a haute resolution) a ete utilise pour mieux preciser la 
region genetique et a permis de completer les analyses de liaison genetique et de 
rechercher un desequilibre de liaison genetique avec la maladie. 

20 L'etude a porte sur 78 families comportant au moins 2 apparentes atteints de 

MC, qui correspondaient a 119 paires d'affectes. Les families comportant des 
malades atteints de RCH ont ete exclues de l'etude. 

Vingt-six marqueurs genetiques de polymorphisme de type microsatellites 
ont ete etudies. Ces marqueurs formaient ensemble une carte a haute resolution avec 

25 une distance moyenne entre marqueurs de I'ordre de IcM dans la region genetique 
d'interet. Les caracteristiques des marqueurs etudies sont rapportes sur le tableau 1. 

Tableau 1. Marqueurs polvmorphes de type microsatellite utilises pour la 
localisation fine de IBDl 



Nom du marqueur de 


Distance 


Amorces PGR 


polymorphisme 


cumulee (cM) 




D16S3120 


0 


SEQDDN"? 


(AFM326vc5) 




SEQIDN°8 


D16S298 


2,9 


SEQIDN°9 


(APMal89wg5) 




SEQIDN° 10 
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D16S299 


3,4 


SEQ ID N° 11 
SEQIDN° 12 


SPN 


3=9 


SEQ ]DN° 13 
SEQIDN° 14 


D16S383 ■ 


4,3 


SEQ IDN° 15 
SEQ ID N° 16 


D16S753 
(GGAA3G05) 


4,9 


PIT^/^ TT^ "K.TO 1 i~l 

SEQ E)N° 17 
SEQIDN° 18 


D16S3044 
(AFMa222za9) 


5,8 


SEQ IDN° 19 
SEQ ID N° 20 


D16S409 
(AFM161xal) 


5,8 


SEQ IDN° 21 
SEQ ID N° 22 


D16S3105 
(AFMb341zc5) 


6,1 


SEQ ID N° 23 
SEQ ID N' 24 


D16S261 
(MFD24) 


6,8 


SEQ ID N° 25 
SEQ]DN° 26 


(GATA7B02) 


6,9 


SEQ ID N° 27 
SEQIDN° 28 


D16S3080 
(AFMb068zb9) 


7 


SEQ ID N° 29 
SEQIDN°30 


D16S517 
(APMal32we9) 


7 


SEQ ID N° 31 
SEQ ID N° 32 


D16S411 
(AFM186xa3) 


8 


SEQ IDN° 33 
SEQIDN°34 


D16S3035 
(AFMal89wg5) 


10,4 


SEQ IDN° 35 
SEQ ID N° 36 


D16S3136 
(AFMa061xe5) 


10,4 


SEQ IDN° 37 
SEQ ID N° 38 


D16S541 
(GATA7E02) 


11.4 


SEQ IDN° 39 
SEQ ID N° 40 


D16S3117 
(AFiVI2S8wbl) 


11,5 


SEQ ]DN° 41 
SEQ ID N° 42 


D16S416 
(APM2]0yg3) 


12,4 


SEQ ID N° 43 
SEQ ID N° 44 


D16S770 
(GGAA20G02) 


13,2 


SEQ ID N 45 
SEQIDN° 46 


Dl 632623 
'(GATA81B12) 


15 


SEQ ID In 47 
SEQ ID N° 48 


D16S390 


16,5 


iEQ ID JM 49 
SEQ ID N° 50 


TA 1 c /1 1 r\ 
Dloi)4iy 

(AFM225zf2) 


on A 
2U,4 


obQ ID IN i 1 
SEQ ID N° 52 ■ 


D16S77] 
(GGAA23C09) 


■ 21,8 


SEQ ID N° 53 
SEQ ID N° 54 


D16S408 
(AFM137xf8) 


25,6 


SEQIDN° 55 
SEQIDN° 56 


D16S508 
(AFM304xfl) 


38,4 


SEQ ID N° 5 7 
SEQIDN° 58 
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Chaque marqueur est repeitorie selon la nomenclature Internationale et le 
plus souvent par le nom propose par le laboratoire d'origine. Les marqueurs 
apparaissent selon leur ordre sur le chromosome (de 16p vers 16q). La distance 
genetique entre les marqueurs (en centiMorgan Kosambi, calculee par le 
5 programme Crimap a partir des donnees experimentales) est indiquee dans la 
deuxieme colonne. Le premier marqueur polymorphe est pris arbitrairement comme 
point de reference. Les oligonucleotides ay ant servi a la reaction de polymerisation 
en chaine (PGR) sont indiques dans la troisieme colonne. 

Le genotypage de ces marqueurs microsatellites a repose sur la technologie 
10 des sequenceurs automatiques utilisant des amorces fluorescentes. Brievement, 
apres amplification, les produits de reaction de polymerisation en chaine (PGR) 
fluoresc-ents ont ete deposes sur un gel de polyacrylamide sur sequenceur 
automatique selon les recommandations du constructeur (Perkin Elmer). La taille 
des alleles- pour chaque sujet a ete deduite grace au logiciels Genescan^ et 
15 Genotyper^. Les donnees ont ensuite ete conservees sur une base informatique 
integree contenant' les donnees genealogiques, phenotypiques et genetiques. Elles 
ont alors ete utilisees pour les analyses de liaison genetique. 

Plusieurs controles qualite ont ete realises tout au long de la procedure de 
genotypage: 

20 - double lecture independante des donnees de genotypage, 

- utilisation d'un ADN standard servant de controle interne pour chaque 
migration electrophoretique, 

- controle de la gamme de taille de chaque allele observe, 

- recherche d'erreurs de transmission mendelienne , 

25 " calcul de la distance genetique entre marqueurs (programme CRIMAP) 

et comparaison de celle-ci avec les donnees de la litterature, 

- nouveau typage des marqueurs pour lesquels il etait observe une 
recombinaison entre marqueurs proches. 

Les donnees de genotypage ont ete analysees par des methodes de liaison 
30 genetique multipoint non parametrique (Programme GENEHUNTER version L3). 
L*informativite du systeme de marqueurs etait superieure a 80% pour la region 
etudiee. Le maximum du test (NPL^ 3,33; P = 0,0004) a ete obtenu pour les 
marqueurs D16S541, D16S3 1 17, D16S770 et D16S416 (figure 2). 
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Les donnees de typage pour ces 26 marqueurs de polymorphisme ont aussi 
ete analysees a la recherche d'un desequilibre de transmission. Deux groupes de 108 
at 76 families avec un ou plusieurs malades atteints de MC ont ete etudies. Le test 
statistique de desequilibre de transmission a ete decrit par Spielman et al. (1993). II 
5 n'a ete pris en compte dans ce travail qu'un seul malade par famille et la valeur de p 
a ete corrigee par le nombre d'alleles testes pour chaque marqueur etudie. 

Un desequilibre de transmission a ete observe pour les alleles 4 et 5 (taille 
205, resp. 207 paires de bases) du marqueur D16S3136 (p=0,05, resp. p=0,01). 

Ces resultats suggestifs d'une association entre le marqueur D16S3136 et la 
10 MC ont conduit a construire une cartographie physique de la region genetique 
centree sur D16S3136 et a etablir la sequence d'un segment d'ADN genomique de 
grande taille (BAC) contenant ce site polym'orphe. U a alors ete possible d'identifier 
et d'analyser un plus grand nombre de marqueurs de polymorphisme dans le 
voisinage de D16S3136 ainsi que de defmir et d'etudier les sequences transcrites 
1 5 presentes dans la region. 

Exemple 2 : cartographie physique de la region IBDl 

Un contig .de fragments d'ADN genomique, centre sur les marqueurs 
D16S3136, D16S3117, D16S770 et D16S416, a ete genere a partir des banques 

20 d'ADN genomique humain de la fondation Jean Dausset/CEPH. Les segments 
d'.ADN chromosomique ont ete identifies a partir de certains marqueurs de 
polymorphisme utilises dans la cartographie genetique fine (D16S411, D16S416, 
D16S541, D16S770, D16S2623, D16S3035, D16S3117 et D16S3136). Pour chaque 
marqueur, une banque de chromosomes artificiels de bacteries (BAC) a ete criblee 

25 par PGR a la recherche de clones contenant la sequence du marqueur. Selon que les 
sequences testees etaient ou non presentes sur les clones de BAC il a ete alors 
possible d'organiser les clones entre eux aj'aide du logiciel Segmap version 3.35. ■ 

On a pu etablir, pour les BACs, une organisation continue (contig) couvrant 
la region genetique d'interet, selon une methode connue de Thomme du metier 

30 (Rouquier et al, 1994 ; Kim et al, 1996 ; Asakawa et al., 1997). Pour ce faire, les 
extremites des BACs identifies ont ete sequencees et ces nouvelles donnees de 
sequence ont alors servi a cribler iterativement les banques de BACs. A chaque 
criblage, le contig de BAC a alors progresse d'un pas jusqu'a I'obtention d'un 
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continuum de clones chevauchants. La taille de chaque BAG participant au contig a 
ete deduite de son profil de migration sur gel d'agarose en champ pulse. 

On a ainsi construit un contig de BAG contenant 101 BAGs et s'etendant sur 
une distance gJobale de plus de 2,5 Mb avec une redondance moyenne de 5,5 BAG 
5 a chaque point du contig. La taille moyenne des BAG est de 1 36kb. 

Exemple 3 : sequencage du BAG hb87blQ 

Le BAG de ce contig contenant le mar'queur de polymorphisme DI6S3136 
(appele hb87bl0), dont la taille etait de 163761 bp a ete sequence selon la methode 

10 dite du "coup de fusil**. En bref, TADN du BAG a ete fragmente par sonication. Les 
fragments d'ADN ainsi generes ont ete soumis a une electrophorese en gel d'agarose 
et ceux dont la taille etait superieure a 1,5 kb ont ete elus pour etre analyses. Ces 
fragments ont ensuite ete clones dans le phage ml3 lui meme introduit dans des 
bacteries rendues competentes par electroporation. Apres culture, TADN des clones 

15 a ete recupere et sequence par des methodes de sequen9age automatique a I'aide 
d'amorces fluorescentes du vecteur ml 3 sur sequenceur automatique. 

1526 sequences differentes d'une taille moyenne de 600 bp ont ete generees, 
qui ont ete organisees entre elles grace au logiciel Polyphredphrap^ aboutissant a un 
contig de sequence couvrant I'ensemble du BAG. La sequence ainsi generee avait 

20 une redondance moyenne de 5,5 equivalents genomiques. Les rares (n=5) 
intervalles de sequence non representes dans la banque de clones ml 3 ont ete 
combles en generant des amorces de PGR specifiques, de part et d'autre de ces 
intervalles, et en analysant le produit de PGR derive de I'ADN genomique d'un sujet 
sain. 

25 Des homologies de sequence avec des sequences disponibles dans les bases 

de donnees genetiques publiques (Genbank) ont ete recherchees. Aucun gene connu 
n'a pu etre identifie dans cet intervalle de 163 kb. Plusieurs EST ont ete positionnes 
suggerant que des genes inconnus etaient contenus dans cette sequence. Ges EST 
issus des bases de donnees genetiques publiques (Genbank, GDB, Unigene, dbEST) 

30 portaient les references suivantes : AI167910, Aid 1720, Rn24957, Mm30219, 
hsl32289, AA236306, hs87296, AA055131, hsl51708, AA417809, AA417810, 
hs6l309, hsl 16424, HUMGS01037, AA835524, hsl05242, • SHGC17274, 
hsl46128, hsl22983, hs87280 et hsl35201. La recherche d'exons putatifs a Taide 
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du programme informatique GRAIL a permis d'identifier plusieurs exons potentials, 
sites de polyadenylation et sequences promotrices. 

Exemple 4 : etudes de desequilibre de transmission 
5 12 marqueurs de polymorphisme bialleliques (SNP) ont ete identifies dans 

une region s'etendant sur environ 250 kb et centree sur le BAG hb87bl0. Ces 
polymorphismes ont ete generes par analyse de la sequence d'une dizaine de 
malades independants attaints de MC. Le sequen9age a ete le plus souvent realise au 
niveau d'EST connus et positionnes sur le BAG ou a son voisinage. Des exons 
10 putatifs, predits par le programme informatique GRAIL ont aussi ete analyses. Les 
caracteristiques des marqueurs polymorphes ainsi identifies sont rapportees sur le 
tableau 2. 

Tableau 2. Garacteristiques de marqueurs de polymorphisme bialleliques etudies 
15 dans la region de IBDl 



I 


II - 


III 


IV 


V 


YI 


1 


KrAA0849ex9 


PCR-AS 




SEQIDN° 88 a 90 


116 


2 


hb27GllF 


PCR-RFLP 


Bsr-l 


SEQIDN° 86, 87 


185 
116 

69 


3 


Ctg22Exl 


PCR-RFLP 


Rsal . 


SEQIDN° 84, 85 


381 
313 

69 


4 


SNPl 


PCR-AS 




SEQIDN°81 a83 


410 


5 


ctg2931-3ac/ola 


LO 




SEQIDN" 78 a 80 


51 

49 


6 


ctg2931-5ag/ola 


LO 




SEQE)N° 75 a 77 


44 
42 


7 


SKP3-2931 


PCR-AS 




SEQIDN° 72 a 74 


245 


8 


Ctg25Exl 


PCR-RFLP 


BsteJl 


SEQIDN° 70, 71 


207 
122 
85 
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9 


CTG35 ExA 


PCR-AS 




SEQIDN° 67 a 69 


333 


10 


ctg35ExC 


PCR-AS 




SEQIDN°64a66 


198 


11 


D16S3136 






SEQIDN° 37,38 




12 


hbl33Dlf 


PCR-RFLP 


Taql 


- SEQ ID N° 62, 63 


369 
295 
74 


13 


D16S3035 






SEQIDN°35, 36 




14 


ADCYTint? 


PCR-AS 




SEQ ID N° 59 a 61 


140 



PCR-AS : PGR- allele specifique ; LO : Ligature d' oligonucleotides 

Les 12 marqueurs de polymorphisme bialleliques nouvellement decrits dans 

ce travail sont repertories dans ce tableau. Pour chacun d'eux sont indiques : 
I 

- le locus (coionnel) 
le nom (colonne 11) 

la technique de genotypage utilisee (colonne III) 

- Tenzynie de restriction eventuellement utilisee (colonne IV) 

- les amorces oligonucleotidiques utilisees pour la reaction de 
polymerisation en chame ou pour la ligature (colonne V) 

- la taille des produits attendus ]ors du typage (colonne VI) 

199 families comportant 1 ou plusieurs malades atteints de MC ont ete 
typees pour ces 12 marqueurs de polymorphisme ainsi que pour ies marqueurs 
D16S3035 et D16S3136 localises sur le BAG hbSTblO. Les families comportant des 
malades atteints de RCH n'ont pas ete prises en compte. Les methodes de typage 
des polymorphismes. etudies ont ete variables en fonction du type de 
polymorphisme faisant appel a : 

- la technique de PGR-RFLP (amplification suivie de digestion 
enzymatique du produit de PGR) quand le polymorphisme etait situe sur 
un site de restriction enzymatique. 

- PGR avec amorces specifiques du site polymorphe : amplification 
differentielle des deux alleles en utilisant des amorces specifiques de 
chaque allele. 
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- Test de ligation d'oligonucleotides : ligation differentielle utilisant des 
oligonucleotides specifiques de chaque allele, suivie d'electrophorese en 
gel de polyacrylamide. 
Les donnees de typage ont ensuite ete analysees selon un test de desequilibre 
5 de transmission (programme informatique TDT du logiciel GENEHUNTER version 
2). Pour les fi^milles comportant plusieurs apparentes atteints, un seal malade a ete 
pris en compte pour I'analyse. En effet, la prise en compte de plusieurs malades 
apparentes pose le probleme de non independance des donnees dans les calculs 
statistiques et peut induire une inflation de la valeur du test. Le malade servant a 
10 I'analyse a ete tire au sort au sein de chaque famille par une procedure automatique 
de randomisation. Compte tenu de cette randomisation, la valeur du test statistique 
obtenu ne representait qu'un seul echantillon possible issu du groupe de families 
etudiees. Afm de ne pas limiter I'analyse a ce seul echantillon possible et pour 
mieux apprehender la robustesse des resultats obtenus, pour chaque test, une 
1 5 centaine d'echantillons aleatoires ont ainsi ete generes et analyses. 

Les marqueurs ont ete etudies separement puis groupes selon leur ordre sur 
le segment chromosoniique (KIAA0849ex9 (locus 1), hb27GllF (locus 2), 
Ctg22Exl (locus 3), SNPl (locus 4), ctg293 l-3ac/ola (locus 5), ctg2931-5ag/oia 
(locus 6X SNP3-2931 (locus 1\ Ctg25Exl (locus 8), CTG35ExA (locus 9), 
20 ' ctg35ExC (locus 10), dl6s3136 (locus 11), hb 13 3D If (locus 12), D16S3035 (locus 
13), ADCY7int7 (locus 14)) (tableau 2). Les haplotypes comportant 2, 3 et 4 
marqueurs consecutifs ont ainsi ete analyses en utilisant toujours la meme strategie 
(100 echantillons aleatoires en prenant pour chaque famille un seul individu atteint). 
Pour chaque echantillon teste, il n'a ete pris en compte que les genotypes (ou 
25 haplotypes) portes par au moins 10 chromosomes parentaux. En moyenne 250 tests 
differents ont ainsi ete realises pour chaque echantillon. 11 a alors ete possible de 
deduire le nombre de tests attendus positifs pour chaque seuil de signification et de 
comparer cette distribution a la distribution observee. Pour les sujets sains, la 
distribution des tests n'est pas differente de celle attendue selon le hasard {y^ = 2,85, 
30 ddl=4, p=0,58). Pour les sujets malades, au contraire, il existe un exces de tests 
positifs temoignant de I'existence d'un desequilibre de transmission dans la region 
etudiee. 
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Les resultats des tests de desequilibre de transmission pour chaque marqueur 
de polyinorphisme pris isolement et pour les haplotypes montrant les plus forts 
desequilibres de transmission ont montre que les marqueurs suivants sent en 
desequilibre de liaison avec la maladie: Ctg22Exl (locus 3), SNPl (locus 4). 
5 ctg2931-5ag/ola (locus 6\ SNP3-2931 (locus 7); Ctg25Exl (locus 8) et ctg35ExC 
(locus 10). Ces marqueurs s'etendent sur une region d'environ 50kb (positions 
74736 a 124285 sur la sequence de hb87blO). 

Les haplotypes les plus fortement associes avec la maladie de Crohn 
s'etendent eux aussi sur cette region. Ainsi, pour la majorite des echantillons 
10 aleatoires, le test de transmission etait positif (p < 0,01) pour des haplotypes 
combinant les marqueurs suivants : 

- locus 5-6, locus 6-7, locus 7-8, locus 8-9, locus 9-10, locuslO-11 

- locus 5-6-7, locus 6-7-8, locus 7-8-9, locus 8-9-10, locus 9-10-1 1 

- locus 5-6-7-8; locus 6-7-8-9, locus 7-8-9-10, 

15 L'haplotype de susceptibilite le plus a risque est defini par les locus 7 a 10. II 

s'agit de l'haplotype 1-2-1-2 (tableau 2). 

Les marqueurs testes sont, comma attendu, le plus souvent en desequilibre 
de liaison entre eux. 

Plus recemment, un nouveau test, le Pedigree Disequilibrium Test (PDT), 
20 publie en juillet 2000 (Martin et al, 2000) a ete utilise pour mieux apprehender la 
signification des resuhats obtenus avec le programme informatique TDT. Cette 
nouvelle statistique permet en effet d'utiliser Tensemble de Tinformation disponible 
dans une famille, tant a partir des sujets malades qu'a partir des sujets sains et de 
, ponderer rimportance de chaque apparente en une statistique globale pour chaque 
25 famille. Les valeurs de p correspondant aux tests PDT et obtenues pour un groupe 
elargi de 235 families avec. un ou plusieurs apparentes atteints de ia maladie de 
Crohn sont rapportees dans le Tableau 3. Cette nouvelle analyse confirme que la 
region du BAC hb87blO est bien associee avec la maladie de Crohn. 

30 



BNSDOCID: <W0 0172822A2_L> 



wo 01/72822 PCT/FROl/00935 

34 



Tableau 3. Resultat des tests PPT realises sur 235 families atteintes de la maladie 
de Crohn OSfS : non significatif) 



LOCUS 


VALEUR p DU TEST PDT 


KIAA0849ex9 


NS 


hb27gllf 


0,05 


ctg22exl 


0,01 


SNPl 


0,001 


ctg2931-3ac/ola 


NS 


ctg2931-5ag/ola 


0,0001 


SNP3-2931 


0,0001 


ctg25ex] 


0,0006 


ctg35exA 


NS 


ctg35exC 


0,00002 


D16S3136 


NS 


hbl33dlf 


NS 


D16S3035 


NS 



Example 5 : Identification du gene IBDl 
5 Les groupements d'EST (references Unigene : Hs 135201, Hs87280, 

Hsl22983, Hsl46128, Hsl05242, Hsll6424, Hs61309, Hsl51708, Hs 87296 et ' 
Hsl32289) publics et presents sur le BAG hb87blO ont. ete etudies a la recherche 
d'une sequence d'ADN complementaire (ADNc) plus complete. -Pour IBDlprox, les 
clones disponibles dans les banques publiques ont ete sequences et les sequences 

10 organisees entre elles. Pour IBDl, une banque d'ADN complementaire de sang 
peripherique (Stratagene' human blood cDNA lambda zapexpress ref 938202) a ete 
criblee par les produits de PCR generes a partir des EST connus selon les modalites 
proposees par le fabriquant. La sequence des ADNc ainsi identifies a ensuite servi a 
un nouveau criblage de la banque d'ADNc et ainsi de suite jusqu'a I'obtention de 

15 I'ADNc presente. 

L'ESThsl 35201 (UniGene) a permis d'identifier un ADNc ne figurant pas 
sur les bases de donnees genetiques disponibles (Genbank) II correspond done a un 
nouveau gene humain. La comparaison de la sequence du cDNA et de I'ADN 
genomique a montre que ce gene est constitue de 11 exons et 10 introns. Un exon 
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supplementaire, en position 5' par rapport au cDNA identifie est predit par I'analyse 
de la sequence avec le logiciel Grail. Ces exons sont tres homologues avec les 
premiers exons du gene CARD4/N0D1. Considerant Tensemble des exons 
identifiees et Texon putatif supplementaire, ce nouveau gene apparait avoir una 
5 structure genomique tres proche de celle de CARD4/N0D1. Par ailleurs, en amont 
du premier exon putatif figure un site d'initiation de la transcription. Pour 
I'ensemble de ces raisons, Texon putatif a ete considere comme participant a ce 
nouveau gene. L'ADNc reporte en annexe (SEQ ID N° 1) comporte done Tensemble 
de la sequence identifiee plus la sequence predite par la modelisation informatique, 

10 I'ADN complementaire debutant arbitrairement au premier codon ATG de la 
sequence codante predite. Sur cette base, le gene comporterait done 12 exons et H 
introns. La structure intron-exon du gene est rapportee sur la SEQ ID N° 3. 

La sequence proteique deduite de la sequence nucleotidique, comporte 1041 
acides amines (SEQ ID N° 2). Cette sequence n'a pas non plus ete retrouvee sur les 

1 5 bases de donnees biologiques (Genpept, pir^ swissprot). 

Or, plus reeemment, Texon putatif ci-dessus decrit n'a pas pu etre confirme. 
Le gene IBDl ne comporte done effectivement que 11 exons et 10 introns et code 
pour une proteine de 1013 acides amines (c'est-a-dire 28 acides amines de moins 
que determine initialement). 

20 L'etude de la sequence proteique deduite montre que ce gene contient trois 

domaines fonctionnels differents (figure 3) : 

- 'Un domaine CARD (Caspase Recruitment Domain) connu pour etre 
implique dans I'interaction entre proteines regulatrices de Tapoptose et 
de I'activation de la voie NFkappa B. Le domaine CARD permet de 

25 classer cette nouvelle proteine dans la famille des proteines CARD dont 

les membres les plus anciens sont CED 4, APAFl et RICK. 

- Un domaine NBD (Nucleotide Binding Domaine) comportant un site de 
reconnaissance de I'ATP et un site de liaison du Magnesium. La proteine 
doit done avoir une activite kinase tres probable. 

30 - Un domaine LRR (Leucine Rich Domain) suppose participer a 

I'interaction entre proteines par analogic avec d'autres domaines 
proteiques decrits . 
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Par ailleurs, le domaine LRR de la proteine permet d'affilier la proteine a 
une famille de proteines impliquees dans la signalisation intracellulaire et presentes 
tant chez les plantes que chez les animaux. 

La comparaison de ce nouveau gene avec les genes precedemment identifies 
5 et disponibles dans les bases de donnees publiques montre que celui-ci est tres 
homologue avec CARD4/N0D1 (Bertin et al., 1999 ; Inohara et al, 1999). Cette 
homologie porte sur la sequence de I'ADN complementaire, la structure intron-exon 
du gene et la sequence proteique. L'identite de sequence des 2 ADN 
complementaires est de 58%. Une similitude est egalement observee au niveau de la 
10 structure introns-exons. L'homologie de sequence au niveau proteique est de Tordre 
de 40%. 

La similitude entre ce nouveau gene et CAKD4/N0D1 suggere que, comme 
CARD4/N0D1, la proteine IBDl est impliquee dans la regulation de I'apoptose et 
de I'activation de NF-kappa B. (Bertin et al., 1999 ; Inohara et al., 1999), La 

15 regulation de I'apoptose cellulaire et Factivation de NF-kappa B sont des voies de 
signalisation intracellulaire essentielles dans les reactions immunitaires. En effet, 
ces voies de transduction du signal sont les voies effectrices des proteines de la 
famille du recepteur du TNF (Tumor Necrosis Factor) impliquees dans les 
interactions cellule-cellule et la reponse cellulaire aux differents mediateurs de 

20 rinflammation (cytokines). Le nouveau gene apparait done comme potentiellement 
important a la reaction inflammatoire, de fafon generale. 

Plusieurs faisceaux de preuves viennent a Tappui de la deregulation de NF- 
kB induit par des bacteries dans la maladie de Crohn. Tout d'abord, la susceptibilite 
a IBD spontanee chez les souris a ete associee a des mutations dans Tlr4, une 

25" molecule connue pour se lier aux LPS par Tintermediaire de son domaine LRR 
(Poltorak et al, 1998 et Sundberg et al, 1994) et pour etre un membre des 
activateurs de la famille de "NF-kB. Deuxiemement, la therapie antibiotique cause 
une amelioration provisoire chez les patients atteints de MC accreditant Ihypothese 
que les bacteries enteriques peuvent jouer un role etiologique dans la maladie de 

30 Crohn (McKay, 1999). Troisiemement, NF-kB joue un role pivot dans les maladies 
inflammatoires de lintestin et est active dans les cellules mononucleees de la 
lamina propria dans la maladie de Crolin (Schreiber et al, 1998). Quatriemement, le 
traitement de la maladie de Crohn est basee sur I'utilisation de la sulfasalazine et 
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des glucocorticoides, tous deux connus comme etant des inhibiteurs de NF-kB 
(Auphan et al, 1995 et Wahl et al., 1998) 

Encore plus recemnient, i] a ete montre que le gene candidat IBDl code 
■ pour une proteine tres similaire a N0D2, un membra de la. superfamille 
5 CED4/APAF1 (Ogura et al., 2000). Les sequences nucleotidiques et proteiques de 
EBDl et N0D2 ne divergent en realite que pour une petite portion toute initiale des 
2 sequences rapportees. Les expressions tissulaires de Nod2 et IBDl sont de plus 
superposables. Ces deux genes (proteines) peuvent done etre considere(e)s comme 
identiques. II a ete demontre que ie domaine LRR de Nod2 a une activite de liaison 

10 pour les lipopolysaccharides bacteriens (LPS) (Inohara et al., 2000) et que sa 
deletion stimule la voie deKFkB. Ce resultat confirme les donnees de I'invention. 

L'expression tissulaire de IBDl a ete ensuite etudiee par la technique du 
Northern Blot. Un transcrit de 4.5 kb est visible dans la plupart des tissus humains. 
La taille du transcrit est conforme avec la taille predite par TADNc. Le transcrit de 

15 4.5 kb semble en tres faible abondance dans Tintestin grele et le colon. II est par 
contre tres fortement exprime dans les globules blancs. Ceci est en accord avec des 
donnees cliniques sur les transplantations qui suggerent que la maladie de Crohn est 
potentiellement une maladie liee aux cellules immunitaires circulantes. En effet, la 
transplantation intestinale n'empeche pas la recidive sur le greffon dans la maladie 

20 de Crohn tandis que la transplantation de moelle osseuse semble avoir un effet 
benefique sur revolution de la maladie. 

Certaines donnees font egalement penser a un epissage alternatif, qui 
pourrait s'averer un element important dans la possibilite de generer des mutants 
qui pourraient jouer un role dans le developpement de maladies inflammatoires. 

25 Le promoteur du gene IBDl n'est actuellement pas identifie avec precision. 

II est cependant raisonnable de penser, par analogic avec un tres grand nombre de 
genes que celui-ci reside, au moins pour partie, immediatement en amont du gene, 
dans la portion 5' de celui-ci. Cette region genetique contient des sequences 
transcrites comme en temoigne la presence d'EST (HUIVIGSOIOSV, AA835524, 

30 hs.l05242, SHGC17274, hs.l46128, hs.122983, hs.87280). Les clones ATCC 
contenant ces sequences ont ete sequences et analyses dans le laboratoire, 
permettant de mettre en evidence une organisation en exons et en introns avec 
d'eventuels epissages alternatifs. Ces donnees suggerent I'existence d'un autre gene 
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(nomme IBDlprox en raison de sa proximite d'IBDl). La sequence partielle de 
TADN complementaire de IBDlprox est rapportee (SEQ ED W 4) de meme que sa 
structure intron-exon sur la SEQ E) N° 6. 

La traduction des ADNc correspondant a IBDlprox aboutit a une proteine 
5 contenant une homeobox. L' analyse de plusieurs ADNc du gene suggere cependant 
Texistence d'epissages alternatifs. IBDlprox, selon un des epissages altematifs 
possibles correspond a TEST anonyme HUMGS01037 dont TARN est exprime de 
maniere plus innportante dans les lignees leucocytaires differenciees que dans les 
lignees non differenciees. 

10 Ainsi, il est possible que ce gene puisse avoir un role dans rinflaniniation et 

la differentiation cellulaire, II peut done lui aussi etre considere comme un bon. 
candidal pour la susceptibilite aux IVDCI L'association entre MC et le 
polymorphisme ctg35 ExC localise sur la sequence codante de IBDlprox renforce 
cette hypothese meme si ce polymorphisme n'entraine pas de variation de sequence 

1 5 au niveau proteique. 

Enfin, plus recemment, Texistence d'une liaison genetique dans les families 
atteintes de la maladie de Crohn et ne comportant pas de mutation du gene IBDl 

- ■' suggere elle aussi que IBDl prox a un role additionnel a IBDl dans la 
predisposition genetique a la maladie. 

20 La relation fonctionnelle entre IBDl et IBDlprox n'est actuellement pas 

etablie. Toutefois, la forte proximite entre les deux genes pounait refleter une 
interaction entre ceux-ci. Dans ce cas, la localisation « tete -beche » de ces genes 
suggere qu'ils puissent avoir des modes de regulation communs ou interdependants. 

25 Exemple 6 : identifications de mutations du gene IBDl dans les maladies 
inflammatoires 

Afm de confirmer le role de IBDl dans les maladies inflammatoires, la 
sequence codante et les jonctions intron-exon du gene ont ete sequencees de I'exon 
2 a Texon 12 inclus chez 70 sujets independants, a savoir : 50 malades atteints de 
30 MC, 10 malades atteints de RCH, 1 malade atteint de syndrome de Blau et 9 
temoins sains. Les malades etudies etaient pour la plupart des formes familiales de 
la maladie et etaient souvent porteurs de I'haplotype de susceptibilite defini par les 
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etudes de desequilibre de transmission. Les temoins sains etaient d'origine 
caucasienne. 

24 variants de sequence ont ainsi pu etre identifies sur ce groupe de 70 
personnes non apparentees(tableau 3). 
5 La nomenclature des mutations rapportees fait reference a la sequence 

initiale de la proteine comportant 1041 acides amines. La nomenclature plus 
recemment proposee est aisement deduite en retirant 28 acides amines a la sequence 
initiale, et correspond done a une proteine comprenant 1013 acides amines (cf 
exemple 5). 

10 

Tableau 4. Mutations observees dans le gene IBDl 





Y a.1 idlLL 

nucleotidiflue 


\/ Q n a Tit 

proteique 


iViitlCHilC uc 

Crohn 


hemorragique 


i emoms 
sains 


1 


non teste 










2 


G417A 


silencieux 








2 


C537G 


silencieux 








3 


auGun 










4 


T805C 


S269P 


48/100 


6/20 


3/18 


4 


A869G 


N290S 


0 


0 


. 1/18 


4 


C905T 


A3 02V 


1/100 


0 


0 


4 


C1283T 


P428L 


1/100 


0 


0 


4 


C1284A 


silencieux 








4 


C1287T 


silencieux 








4 


T1380C 


silencieux 








4 


T1764G 


silencieux 








4 


G1837A 


A613T 


1/100 


0 


0 


4 


C2107T 


R703W 


10/10 


1/20 


1/18 


4 


C2110T 


R704C 


4/10 


. 1/20 


0. 


5 


G2365A 


R792Q 


1/100 


0 


0 


.5 


G2370A 


V794M 


0 


1/20 


0 


5 


G2530A 


E844K 


1/10 


0 


0 


6 


A2558G 


N853S 


1/100 


0 


0 


6 


A2590G 


M864V 


1/100 


0 


0 


7 . 


aucun 










8 


G2725C 


G909R 


7/100 


0 


0 


8 


C2756A 


A919D 


1/100 


0 


0 


9 


G2866A 


V956I 


2/100 


1/20 


3/18 


10 


C2928T 


silencieux 








11 


3022insC 


stop 


20/100 


0 


0 
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12 


aucun 











Les mutations autres que silencieuses observees dans chaque exon sent 
rapportees. Elles sont indiquees par la variation de la ciiame peptidique. Pour 
chaque mutation et pour chaque phenotype etudie, il est indique le nombre de fois 
ou la mutation est observe, rapporte au nombre de chromosomes testes. 
5 Aucun variant de sequence fonctionnel n'a ete identifie dans les exons 1 a 3 

(correspondants au domaine CARD de la proteine). Les exons 7 et 12 n'ont pas non 
plus montre de variation de sequence. Certains variants correspondaient a des 
polymorphismes deja identifies et types pour les etudes de desequilibre de 
transmission, a savoir ; 
1 0 -Snp3-2931 : variant nucleotidique T805C, variant proteique S269P 

-ctg2931-5ag/ola ; variant nucleotidique T1380C (silencieux) 
-ctg2931-3ac/ola : variant nucleotidique T1764G (silencieux) 
-SNPl : variant nucleotidique C2107T, variant proteique R703W 
Plusieurs variations de sequence etaient silencieuses (G417A, C537G, 
15 C1284A, C1287T, T1380C, T1764G, C2928T) et n'entrainaient pas de modification 
de la sequence proteique. Elles n'ont pas ete etudiees davantage ici. 

Pour les 16 variations de sequence non silencieuses, il a ete observe des 
variants de sequence proteique chez 43/50 MC contre 5/9 temoins sains et 6/10 
RCH. L'existence d'une ou plusieurs variation(s) de sequence apparaissait associee 
20 au phenotype MC. II existait souvent plusieurs variations de sequence chez un 
meme individu atteint de MC suggerant un effet parfois recessif du gene pour la 
MC. A I'inverse,. aucun homozygote ou heterozygote composite n'etait observe 
parmi les patients atteints de RCH ou parmi les temoins sains. 

Certains variants non silencieux etaient presents a la fois chez les malades 
25 atteints de RCH ou de MC et chez les sujets sains. II s'agissait des variants S269P, 
N290S, R703W et V956I situes dans les exons 2, 4 et 9, Un complement 
d'information semble done necessaire avant de retenir un eventuel role fonctionnel a 
ces variants de sequence. 

V956I est une variation de sequence conservative (acides amines 
30 aliphatiques). 

Le variant de sequence S269P correspond a une variation de classe d'acide 
amine (hydroxyle en immunoacide) au debut du domaine liant les nucleotides. II en 
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desequilibre de transmission avec la MC. II s'agit en effet du polymorphisme Snp3 
(Cf. supra). 

R703W aboutit a une modification de la classe de Facide amine (aromatique 
au lieu de basique). Cette modification survient dans la region intermediaire entre 
5 les domaines NBD et LRR, region conservee entre IBDl et CARD4/N0D1. Un r51e 
fonctionnel peut done etre suspecte pour ce polymorphisme. Cette variation de 
sequence (correspondant au site polymorphe Snpl) est plus souvent transmise au 
malades attaints de MC que ne le veut ie hasard (Cf. supra) confirmant -que ce 
polymorphisme est associe a la MC. II est possible que la presence de ce mutant 

10 chez les sujets sains temoigne d'une penetrance incomplete de la mutation comme 
cela est attendu pour les maladies genetiques complexes telles que les maladies 
inflammatoires chroniques de I'intestin. 

Le variant R704C, situe immediatement a cote de R703W a pu etre identifie 
a la fois dans la MC et dans la RCH. II correspond lui aussi a une variation non 

15 conservative de la proteine (acide amine soufre au lieu de basique) sur la meme 
region proteique, suggerant un effet fonctionnel aussi important pour R704C que 
pour R703 W. 

D'autres variations de sequence sent specifiques de la MC de la RCH ou du 
syndrome de Blau. 

20 Certaines variations de sequence sent au contraire rares, presentes chez un 

ou quelques malades (A613T, R704C, E844K, N853S, M864V, A919D). II s'agit 
toujours de variations entramant des modifications non conservatives de la proteine 
dans des domaines leucine riches, a des positions importantes au sein de ces 
domaines. Ces differents elements suggerent que ces variations ont un role 

25 fonctionnel. 

Deux variations de sequence (G909R, L1008P*) sont retrouvees chez un 
assez grand nombre de maladies de Crohn (respectivement 7/50 et 16/50) aiors 
qu'elles ne sont pas detectees chez les temoins ou chez les malades attaints de RCH. 

La deletion/insertion d'une guanosine au niveau du codon 1008 aboutit a une 
30 transformation de la troisieme leucine de I'helice alpha du dernier LRR en projine 
suivie d'un codon STOP (L1008P*). Cette variation de sequence entraine done une 
modification importante de la proteine : reduction de taille de la proteine (proteine 
possedant un domaine LRR tronque) et alteration d'un acide amine tres conserve 
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(Leucine). Cette modification de sequence est associee a la MC comme en temoigne 
une etude de desequilibre de transmission dans 16 families porteuses de la mutation 
(P=0,008). 

La mutation G909R survient sur le dernier acide amine du sixieme motif 
5 LRR. II remplace un acide amine aliphatique en acide amine basique. Cette 
variation est potentiellement importante compte tenu du caractere habituellement 
neutre ou polaire des acides amines en position terminale des motifs leucine riche 
(tant pour IBDl que pour NOD 1/C ARD4) et du caractere conserve de cet acide 
amine sur les proteines ffiDl etN0Dl/CARD4. 

10 Dans le syndrome de Blau, les malades (n=2) de la famille etudiee etaient 

porteurs d'une variation de sequence specifique (L470F), localisee dans I'exon 4 et 
correspondant au domaine NBD de la proteine. Dans cette serie, ce variant de 
sequence etait specifique du syndrome de Blau. 

Dans la RCH, plusieurs variants de sequence non retrouves chez les sujets 

15 sains ont aussi ete identifies. La proportion de malades porteurs d'une mutation etait 
plus modeste que. pour la MC, comme attendu compte tenu de la liaison moins 
fortement etablie entre IBDl et RCH et du caractere suppose moins genetique de 
cette demiere maladie. Des variations de sequence etaient communes a la MC et a 
la RCH (R703W, R704C). D'autres au contraires apparaissaient specifiques de la 

20 RCH (V794M). Cette observation permet de confirmer que MC et RCH sent des 
maladies partageant au moins en partie la meme predisposition genetique. Elle pose 
les bases d'une classification nosologique des MICI. 

L'etude des variants de sequence du gene IBDl a done permis d'identifier 
plusieurs variants ayant un effet fonctionnel tres probable (ex : proteine tronquee) et 

25 associes a la maladie de Crohn, a la RCH et au syndrome de Blau. 

Le promoteur du gene n'est actuellement pas determine. Selon toute 
vraisemblance cependant, celui-ci est probablement situe dans la region 5' en amont 
du gene. Selon cette hypothese, les variants de sequence observes dans cette region 
peuvent avoir un effet fonctionnel. Ceci pourrait expliquer la tres forte association 

30 entre MC et certains locus polymorphes tels que ctg35 ExC ou Ctg25Exl . 

L' invention foumit ainsi la premiere description de mutations dans la 
famiUe des genes contenant un domaine CARD chez J'homme. La frequence de ces 
mutations dans des maladies inflammatoires variees montre que le gene IBDl a un 
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role essentie] dans le processus inflammatoire jiormal et patho]ogique. Cette 
invention foumit de nouvelles voies de conaprehension et de recherche dans le 
domaine de la physiopathologie des processus inflammatoires normaux et 
pathologiques. Elle permet de ce fait d'envisager le developpement de nouvelles 
5 molecules pharmaceutiques regulant les voies effectrices controlees par IBDl et 
utiles dans le traitement des maladies inflamniatoires et la regulation du processus 
inflammatoire en general. 

Exemple 7 : bases d'un diagnostic biolosique de susceptibilite a la maladie de 
10 Crohn 

Plus recemment, 457 patients independants atteints de la maladie de Crohn, 
159 patients independants atteints de rectocolite hemorragique et 103 temoins sains 
ont ete etudies a la recherche de mutations. Ce travail a permis de confirmer jes 
mutations precedemment rapportees et d'identifier des mutations supplementaires 

15 rapportees sur la figure 4. Les mutations principales ont ensuite ete genotypees dans 
235 families atteintes de la maladie de Crohn. Ce travail plus recent est expose en 
utilisant comme reference la sequence proteique plus couite (1013 acides amines, 
voir exemple 5) mais la nomenclature anterieure des mutations est aisement deduite 
a partir de cette derniere en ajoutant 28 au chiffre indiquant la position des acides 

20 amines, 

Parmi les 5 mutations les plus frequences, la mutation conservative V928I 
(anciennement V956I) n'est pas significativement associee a Tune ou Tautre des 
maladies inflammatoires de Tintestin et ne semble done pas avoir de role important 
dans la maladie. 

25 La mutation S241P (anciennement S269P) est en desequilibre de liaison 

avec les autres mutations principales et ne semble pas jouer par elle-meme un role 
important dans la susceptibilite aux maladies inflammatoires de i'intestin (donnees 
non montrees). 

A Tinverse, les 3 autres mutations R675W (anciennement R703W), G881R 
30 (anciennement G909R) et 980fs (anciennement L1008P*) sont significativement 
associees a la maladie de Crohn mais pas a la rectocolite hemorragique (cf infra). 
La localisation dans le LRR ou a sa proximite immediate des 3 mutations frequentes 
plaide tres fortement pour un mecanisme fonctionnel impliquant ce domaine 
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proteique, probablement par un defaut de regulation negative de NFkB par la 
proteine mutee. Les autres mutations sent plus rares (figure 4). Ces mutations 
cumulees sent presentes chez 17% des sujets attaints de la maladie de Crohn centre 
respectivement 4 % et 5 % les sujets sains ou atteints de rectocolite hemorragique. 
5 Un grand nombre des mutations rares sont aussi localisees dans le LRR. 

Les etudes intrafamiliales des trois polymorphismes les plus frequents dans 
la maladie de Crohn montrent qu'ils sont tous trois associes a la maladie (tableau 5). 
Comme attendu, pour une mutation supposee tres deletere, le polymorphisme le 
plus fortement associe est la mutation tronquante. Ces trois polymorphismes sont 
10 associes de maniere independante a la maladie de Crohn puisqu'il n'a pas ete 
possible d'identifier sur 235 families des chromosomes porteurs de plus d'une de 
ces trois mutations. Le caractere independant de ces associations renforce 
considerablement Thypothese que le gene IBDl est bien implique dans la 
predisposition genetique a la maladie de Crohn. 

15 

Tableau 5 : etude des 3 polymorphismes frequents de IBDl dans 235 families 
atteintes de la maladie de Crohn 



MUTATION 


VALEUR p DU TEST PDT 


R675W 


0,001 


G881R 


0,003 


980fs 


0,000006 



Les etudes de cas-temoin confiment cette association (tableau 6). lis 
20 montrent que les mutations les plus frequentes dans la maladie de Crohn ne sont pas 
frequentes dans la rectocolite hemorragique. 



Tableau 6 : etude de cas-temoin des 3 polymorphismes frequents de IBDl dans les 
maladies inflammatoires de Tintestin 



MUTATION 


NB DE 
CHROMOSOME 
S ETUDIES 


FREQUENCE 
DE L'ALLELE A 
RJSQUE R675W 


FREQUENCE 
DE L' ALLELE A 
RISQUE GS81R 


FREQUENCE 
0E L' ALLELE A 
RISQUE 980fs 


TOTAL 
ALLELES A 
RISQUE 


Temoins sains 


206 


0,04 


0,01 


0,02 


0,07 


Rectocolite H. 


318 


0,03 ■ 


0,00 


0,01 


0,05 
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M Crohn 


936 


0,11 


0,06 


0,12 


0,29 



L'etude de Teffet dose de ces mutations montre que les sujets porteurs d'une 
mutation a I'etat homozygote ou heterozygote composite presentent un bien plu 
grand risque de developper la maladie que les sujets non porteurs ou heterozygotes 
5 pour ces mutations (tableau 7). 



Tableau 7 : risque relatif et absolu de la maladie de Crohn attribuable en fonction du 
genotype de IBDl 

Dans la population generale, un risque de la maladie de Crohn de 0,001 a ete 
10 pris comme reference et les mutations ont ete supposees en equilibre de Hardy- 
Weinberg. 



DISTRIBUTION 


GENOTYPE 


AUCUN VARIANT 


SIMPLE 
HETEROZYGOTE 


HOMOZYGOTE 


HETEROZYGOTE 
COMPOSITE 


Sains 


88 


15 


0 


0 


Rectocolite H 


145 


13 


1 


0 


M Crolin 


267 


133 


28 


40 


Risque attribuable 
deMC: 
Risque relatif 
Risque absolu 


1 

0,0007 


3 

0,002 


38 
0,03 


44 
0,03 



Les travaux cites ci-dessus confirment les donnees preliminaires anterieures 
^ et apportent les bases detaillees d'un diagnostic biologique de la maladie de Crohn 
1 5 par Tetude des variants de IBDL En effet, ce travail : 

1) definit les mutations dont la frequence est superieure a 0,001 dans une 
population caucasienne melangee, 

2) defmit la frequence des mutations observees et permet de defmir 3 
mutations principales associees a la maladie de Crohn. Ainsi, il est 

20 possible, grace a ce travail, de defmir une strategic d' etude du gene pour 

la recherche de variants morbides a savoir : premierement typage des 3 
mutations principales, deuxiemement recherche de mutations dans les 7 
demiers exons, troisiemement recherche d'autres variants de sequence. 
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3) defmit les modalites pratiques de recherche de ces mutations en 
signalant leur position et leur nature. En efFet, il est ensuite aise a 
rhomme du metier de mettre au point des methodes de typage et de 
sequen^age selon son expertise personnelle. On peut citer en particulier 

5 la possibilite de faire les genotypages des 3 mutations principales par 

PGR suivie de digestion enzymatique et electrophorese, etude des profils 
de migration par dHPLQ DGGE ou SSCP, oligoligation, 
microsequen9age, etc. 

4) demontre Tindependance des mutations les plus frequentes qui ne sont 
1 0 pas observees sur le meme chromosome dans cette population etendue et 

variee. Cette information permet de classer de fa9on fiable les sujets en 
heterozygotes composites (ayant deux mutations) comme porteur a une 
double dose de variations intrageniques. 

5) demontre que la plus grande proportion des mutations n'entrame qu'un 
15 effet nul ou minima sur le risque de rectocolite hemorragique. Ce 

resultat. permet d'envisager d'aider le clinicien dans le diagnostic 
differentiel entre ces deux maladies. En effet, dans environ 10 % des cas, 
les maladies inflammatoires de I'intestin restent inclassees malgre les 
examens biologiques, radiologiques et endoscopiques. 
20 6) defmit un risque relatif et absolu de la maladie pour les genotypes les 

plus frequents. Ce resuhat pose les bases d'un diagnostic predictif 
potentiellement utile dans une demarche de suivi ou d' intervention 
preventive dans les populations a risque, en particulier, les apparentes de 
malades. 

25 7) demontre Texistence d'un effet dose pour le gene IBDl et confirme le 

caractere en partie recessif de la predisposition genetique a la maladie de 
Crohn. II permet done de poser les bases d'un conseil genetique et d'un 
diagnostic preclinique intrafamilial. 
Notons enfm qu'une mutation supplementaire du domaine NBD a ete isolee 
30 dans une deuxieme famille porteuse d'un syndrome de Blau. La rarete des deux 
evenements dans 2 families differentes suffit a confirmer Timplication de ce gene 
dans le syndrome de Blau et dans les maladies granulomateuses en generale. 
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L'ensemble de ces donnees apporte un outil diagnostique directement 
applicable et utile au praticien dans sa pratique quotidienne. 

5 

Le gene IBDlprox, situe dans la region promotrice de IBDl, et dont la 
sequence partielle est devoilee dans la presente invention, peut lui aussi avoir un 
role important dans la regulation de I'apoptose cellulaire et du processus 
inflammatoire, comme suggere par son expression differentielle dans les cellules 

10 matures du systeme immunitaire. La forte association rapportee dans ce travail entre 
le marqueur de polymorphisme ctg35ExC (situe daris la region transcrite du gene) et 
la maladie de Crohn, plaide aussi tres fortement en faveur de cette hypothese. 

Les maladies inflammatoires de I'intestin sont des maladies genetiques 
complexes pour lesquelles, a ce jour, aucun gene de susceptibilite n'avait ete 

15 identifie avec certitude. L'invention a permis de I'identification du premier gene de 
susceptibilite a la' maladie de Crohn, par une demarche de clonage positionnel (ou 
genetique reverse). II s'agit la de la premiere localisation genetique obtenue par une 
telle approche pour une maladie genetique complexe, ce qui demontre son utilite et 
sa faisabilite, au moins dans certains cas dans les maladies genetiques complexes. 

20 La presente invention concerne aussi un acide nucleique purifie ou isole 

caracterise en ce qu'il code pour un polypeptide possedant un fragment continu d'au 
moins 200 acides amines d'une proteine choisie parmi SEQ ID N"^ 2 et SEQ ID N° 
5. 
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Revendications 

1. Acide nucleique purifie ou isole, caracterise en ce qu'il comprend une 
sequence nucleique choisie dans le groupe de sequences suivantes : 

5 a) SEQEDNM, SEQIDN°3, SEQrDN°4etSEQIDN°6; 

b) la sequence d'un fragment d'au moins 15 nucleotides consecutifs 
d'une sequence choisie parmi SEQ ED NM, SEQ ID N° 3, SEQ 
IDNMouSEQIDN^6; 

c) une sequence nucleique presentant un pourcentage d'identite 
10 d'au moins 80 %, apres alignement optimal avec une sequence 

defmie en a) ou b) ; 

d) une sequence nucleique s'hybridant dans des conditions de forte 
stringence avec une sequence nucleique defmie en a) ou b) ; 

e) la sequence complementaire . ou la sequence d'AKN 
1 5 correspondant a une sequence telle que defmie en a), b), c) ou d). 

2. Acide nucleique purifie ou isole selon la revendication 1, caracterise en 
pe qu'il comprend ou est constitue d'une sequence choisie parmi SEQ ID 1 et 
SEQ ID N° 4, la sequence complementaire ou la sequence d'ARN correspondant a 

20 une de ces sequences, 

3. Acide nucleique purifie ou isole caracterise en ce qu'il code pour un 
polypeptide possedant un fragment continu d'au moins 200 acides amines d'une 
proteine choisie parmi SEQ ID N° 2 et SEQ ID N° 5. 

25 

4. Polypeptide isole caracterise en ce qu'il comprend un polypeptide choisi 

parmi : 

.a) un polypeptide correspondant a SEQ ID N° 2 ou SEQ ID N° 5 ; 

b) un polypeptide variant d'un polypeptide de sequence defmie en 
30 a); 

c) un polypeptide homologue a un polypeptide defmi en a) ou b), 
comportant au moins 80 % d'homologie avec ledit polypeptide 
de a); 
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d) un fragment d'au moins 15 acides amines consecutifs d'un 
polypeptide defini en a), b) ou c) ; 

e) un fragment biologiquement actif d'un polypeptide defini en a), 
b) ou c). 

5. Polypeptide selon la revendication 4, caracterise en ce qu'il est constitue 
d'une sequence choisie parmi SEQ ID N° 2, SEQ ID N° 5 ou une sequence 
possedant au moins 80 % d'homologie avec Tune de ces sequences apres 
alignement optimal. 

6. Vecteur de cionage et/ou d'expression comprenant un acide nucleique 
selon Tune des revendications 1 a 3 ou codant pour un polypeptide selon Tune des 
revendications 4 et 5. 

15 7. Cellule bote caracterisee en ce qu'elle est transformee par un vecteur 

selon la revendication 6. 

8. Animal, excepte I'homme/ caracterise en ce qu'il comprend une cellule 
selon la revendication 7. 

20 

9. Utilisation d'une sequence d'acide nucleique selon Tune des 
revendications 1 a 3 en tant que sonde ou amorce, pour la detection et/ou 
Tamplification de sequences d'acide nucleique. 

25 10. Utilisation in vitro d'un acide nucleique selon Tune des revendications 1 

a 3 comme oligonucleotide sens ou antisens. 

11. Utilisation d'une sequence d'acide nucleique selon I'une des 
revendications I a 3 pour la production d'un polypeptide recombinant. 

30 

12. Procede d'obtention d'un polypeptide recombinant caracterise en ce que 
Ton cultive une cellule selon la revendication 7 dans des conditions permettant 
Texpression dudit polypeptide et que Ton recupere ledit polypeptide recombinant. 



5 



10 
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13. Polypeptide recombinant caracterise en ce qu'il est obtenu par un 
procede selon la revendication 12. . 

5 14. Anticorps monoclonal ou polyclonal caracterise en ce qu'il lie 

selectivement un polypeptide selon Tune des revendications 4, 5 ou 13. 

15. Procede de detection d'un polypeptide selon Tune des revendications 4, 
5 ou 13, caracterise en ce qu'il comprend les etapes suivantes : 

10 a) mise en contact d'un echantillon biologique avec un anticorps 

selon la revendication 14 ; 
b) mise en evidence du con'iplexe antigene-anticorps forme. 

16. Trousse de reactifs pour la mise en oeuvre d'un procede selon la 
15 revendication 15, caracterisee en ce qu'elle comprend : 

a) .un anticorps monoclonal ou polyclonal selon la revendication 

14; 

b) eventuellement des reactifs pour la constitution d'un milieu 
propice a la reaction immunologique ; 

20 c) les reactifs permettant la detection du complexe antigene- 

anticorps produit lors de la reaction immunologique. 

17. Metho.de de diagnostic et/ou d 'evaluation pronostique d'une maladie 
inflammatoire et/ou immune ou d'un cancer caracterisee en ce qu'on determine a 

25 partir d'un prelevement biologique d'un patient la presence d'au moins une 
mutation et/ou une alteration d'expression du gene correspondant a SEQ ID N° 1, 
SEQ ID W 3, SEQ ID 4 ou SEQ ID N° 6 par I'analyse de tout ou partie d'une 
sequence nucleique correspondant audit gene. 

30 . 18. Puce a ADN caracterisee en ce qu'elle contient une sequence nucleique 
selon Tune des revendications 1 a 3. 
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19. Puce a proteines caracterisee en ce qu'elle contient un polypeptide selon 
Tune des revendications 4, 5 ou 13, ou un anticorps selon la revendication 14. 

20. Precede de detection et/ou de dosage d'un acide nucleique selon Tune 
5 des revendications 1 a 3 dans un echantillon biologique, caracterise en ce qu'il 

comprend les etapes suivantes : 

a) mise en contact d'un polynucleotide selon I'une des 
revendications 1 a 3, marque ; 

b) detection et/ou dosage de I'hybride forme entre ledit 
10 polynucleotide at 1 'acide nucleique de Techantillon biologique. 

21- Precede de detection et/ou de dosage d'un acide nucleique selon I'une 
des revendications 1 a 3 dans un echantillon biologique, caracterise en ce qu'il 
comprend une etape d'amplification des acides nucleiques dudit echantillon 
15 biologique a I'aide d'amorces choisies parmi les acides nucleiques selon Tune des 
revendications 1 a^2. 

22. Precede de criblage de composes capables de se fixer a un polypeptide 
de sequence SEQ ID N*^ 2 ou SEQ ID N° 5, caracterise en ce qu'ii comprend les 
20 etapes de mise en contact d'un polypepride selon I'une des revendicarions 4, 5 ou 
13, d'une cellule selon la revendication 7, ou d'un mammifere selon la 
revendication 8, avec un compose candidat et de detection de la formation d'un 
complexe entre ledit compose candidat et ledit polypeptide. 

25 23. Procede de criblage de composes capables d'interagir in vitro ou in vivo 

avec un acide nucleique selon i'une des revendications 1 a 3, caracterise en ce qu'i! 
comprend les etapes de mise en contact d'un acide nucleique selon I'une des 
revendications 1 a 3, d'une cellule selon la revendication 7, ou d'un mammifere 
selon la revendication 8, avec un compose candidat et de detection de la formation 

30 d'un complexe entre ledit compose candidat et ledit acide nucleique 

24. Compose caracterise en ce qu'il est choisi parmi 

a) un acide nucleique selon I'une des revendications 1 a 3 ; 
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b) un polypeptide scion Tune des revendications 4, 5 ou 13 ; 

c) un vecteur selon la revendication 6 ; 

d) une cellule selon la revendication 7 ; et 

e) un anticorps selon la revendication 14 ; 
5 a litre de medicament. 

25. Compose selon la revendication 24, pour la prevention et/ou le 
traitement d'une maladie inflammatoire et/ou immune ou d'un cancer associe a la 
presence d'au moins une mutation du gene correspondant a SEQ ID 1 ou SEQ 
10 IDNM. 
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I'intestin et leur utilisation 

<130> D18702 

<160> 90 

<170> Patentln Ver. 2.1 

<210> 1 

<211> 4322 

<212> ADN 

<213> Homo sapiens 

<220> 

<221> CDS 

<222> (1)..(3123) 

<400> 1 

atg gag aag aga agg ggt eta acc att gag tgc tgg ggc ccc caa agt 48 
Met Glu Lys Arg Arg Gly Leu-Thr lie Glu Cys Trp Gly Pro Gin Ser 
15 10 15 

ccc tea ctg acc ttg ttc tec tec cca ggt tgt gaa atg tgc teg eag 96 
Pro Ser Leu Thr Leu Phe Ser Ser Pro Gly Cys Glu Met Cys Ser Gin 
20 25 30 

gag get ttt cag gca cag agg age cag ctg gte gag ctg ctg gtc tea . 144 
Glu Ala Phe Gin Ala Gin Arg Ser Gin Leu Val Glu Leu Leu Val Ser 
35 40 45 

ggg tec ctg gaa ggc ttc gag agt gtc ctg gac tgg ctg ctg tec tgg 192 
Gly Ser Leu Glu Gly Phe Glu Ser Val Leu Asp Trp Leu Leu Ser Trp 
50 55 60 

gag gtc etc tec tgg gag gac tae gag ggc ttc cae etc ctg ggc cag 240 
Glu Val Leu Ser Trp Glu Asp Tyr Glu Gly Phe His Leu Leu Gly Gin 
65 70 75 80 

cct etc tec cae ttg gee agg cgc ctt ctg gac acc gtc tgg aat aag 288 
Pro Leu Ser His Leu Ala Arg Arg Leu Leu Asp Thr Val Trp Asn Lys 

85 90. ■ 95 ■ 

ggt act tgg gee tgt eag 'aag etc ate gcg get gee caa gaa gee cag 336 
Gly Thr Trp Ala Cys. Gin Lys Leu lie Ala Ala Ala Gin Glu Ala Gin 
100 105 110 

gcc gac age 'cag tec ccc aag ctg cat ggc tgc tgg gac ccc cac teg 384 
Ala Asp Ser Gin Ser Pro Lys Leu His Gly Cys Trp Asp Pro His Ser 
115 120 125 

etc cac cca gcc cga gac ctg cag agt cac egg cca- gee att gtc agg 432 
Leu His Pro Ala Arg Asp Leu .Gin Ser His Arg Pro Ala He Val Arg 
130 . 135 140 

•agg etc cac age cat .gtg gag aac atg ctg gac ctg gca tgg gag egg 480 
Arg Leu His Ser His Val Glu Asn Met Leu Asp Leu Ala Trp Glu Arg 
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145 150 



155 



PCT/FKO 1/00935 

160 



ggt ttc gtc age cag tat gaa tgt gat gaa ate agg ttg ccg ate ttc 528 
Gly Phe Val Ser Gin Tyr Glu Cys Asp Glu lie Arg Leu Pro lie Phe 
165 no ' 175 

aca ccg tec cag agg gca aga agg ctg ett gat ctt gcc acg gtg aaa 576 
Thr Pro Ser Gin Arg Ala Arg Arg Leu Leu Asp Leu Ala Thr Val Lys 
180 185 ' .190 

gcg aat gga ttg get gcc ttc ctt eta caa cat gtt cag gaa tta cca 624 
Ala Asn Gly Leu Ala Ala Phe Leu Leu Gin His Val Gin Glu Leu Pro 
195 200 205 

gtc cca ttg gcc ctg cct ttg gaa get gcc aca tgc aag aag tat atg 672 
Val Pro Leu Ala Leu Pro Leu Glu AJ.a Ala Thr Cys Lys Lys Tyr Met 
210- 215 220 

gcc aag ctg agg acc acg gtg tet get cag tct cge ttc etc agt acc 720 
Ala Lys Leu Arg Thr Thr Val Ser Ala Gin Ser Arg Phe Leu Ser Thr 
225 230 235 240 

tat gat gga gca gag acg etc tgc ctg gag gac ata tac aca gag aat 768 
Tyr Asp Gly Ala Glu Thr Leu Cys Leu Glu Asp lie Tyr Thr Glu Asn 
245 250 ' 255 



gtc ctg gag gtc tgg gca gat gtg ggc atg get gga tee ccg cag aag 
Val Leu Glu Val Trp Ala Asp Val Gly Met Ala Gly Ser Pro Gin Lys 
260 265 270 



816 



age cca gcc acc ctg ggc ctg gag gag etc ttc age acc cct ggc eac 864 

Ser Pro Ala Thr Leu Gly Leu Glu Glu Leu Phe" Ser Thr Pro Gly His 
275 280 285 

etc aat gac gat gcg gac act gtg ctg gtg gtg ggt gag gcg ggc agt 912 

Leu Asn Asp A.sp Ala Asp Thr Val Leu Val Val Gly Glu Ala Gly Ser 
290 295 300 

ggc aag age acg etc ctg cag egg ctg eac ttg ctg tgg get gca ggg 960 

Gly Lys Ser Thr Leu Leu Gin Arg Leu His Leu Leu Trp Ala Ala Gly 

305 310 315 ' 320 

caa gac ttc cag gaa ttt etc ttt gtc ttc cca ttc age tgc egg cag 1008 

Gin Asp Phe Gin Glu Phe Leu Phe Val Phe Pro Phe Ser Cys Arg Gin 

325 330 335 

ctg cag tgc atg gcc aaa cca etc tct gtg egg act eta etc ttt gag 1056 

Leu Gin Cys Met Ala Lys Pro Leu Ser Val Arg Thr Leu Leu Phe Glu 

340 345 350 

eac tgc tgt tgg cct gat gtt ggt caa gaa gac ate ttc cag tta etc 1104 

His Cys Cys Trp Pro Asp Val Gly Gin Glu Asp 'lie Phe- Gin Leu Leu 
355 " 360 365 

ctt gac eac cct g'ac cgt gtc ctg tta acc ttt gat ggc ttt gac gag 1152 

Leu Asp His Pro Asp. A.rg Val Leu Leu Thr Phe Asp -Gly Phe Asp Glu 
370 375 380 

ttc aag ttc agg ttcaeg gat cgt gaa cge cac tgc tec ccg acc gac 1200 

Phe Lys Phe Arg Phe Thr Asp Arg Glu Arg His- Cys Ser Pro Thr Asp 

385 ■ 390 395 40-0 
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ccc acc tct gtc cag acc ctg etc ttc aac ctt ctg cag ggc aac ctg 1248 
Pro Thr Sex Val Gin Thr Leu Leu Phe Asn Leu Leu Gin Gly Asn Leu 
405 410 415 

ctg aag aat gcc cgc aag gtg gtg acc age cgt ccg gcc get gtg teg 1296 
Leu Lys Asn Ma Arg Lys Val Val Thr Ser Arg Pro Ala Ala Val Ser 
420 425 430 

gcg ttc etc agg aag tac ate egc acc gag ttc aac etc aag ggc ttc 1344 
AAa Phe Leu Arg Lys Tyr lie A.rg Thr Glu Phe Asn Leu Lys Gly Phe 
435 440 445 

tct gaa cag ggc ate gag ctg tac ctg agg aag cgt cat cat gag ccc 1392 
Ser Glu Gin Gly lie Glu Leu Tyr Leu Arg Lys Arg His His Glu Pro 
450 455 460 

ggg gtg gcg gac cgc etc ate cgc ctg etc caa gag acc tea gcc ctg 1440 
Gly Val Ala Asp Arg Leu lie Arg Leu Leu Gin Glu Thr Ser Ala Leu 
465 470 475 480 

eac ggt ttg tge eac ctg cet gtc ttc tea tgg atg gtg tec aaa tgc 1488 
His Gly Leu Cys His Leu Pro Val Phe Ser Trp Met Val Ser Lys Cys 
485 490 . 495 

eac cag gaa ctg ttg ctg cag gag ggg ggg tec cca aag acc act aca . 1536 
His Gin Glu Leu Leu Leu Gin Glu Gly Gly Ser Pro Lys Thr Thr Thr 
500 505 510 

gat atg tac ctg ctg att ctg cag cat ttt ctg ctg cat gcc acc ccc 158.4 
Asp Met Tyr Leu Leu lie Leu Gin His Phe Leu Leu His Ala Thr Pro 
515 ' 520- 525 

cca gac tea get tec caa ggt ctg gga ccc agt ctt ctt egg ggc cgc 1632 
Pro Asp Ser Ala Ser Gin Gly Leu Gly Pro Ser Leu Leu Arg Gly Arg 
530 535 540 

etc ccc acc etc ctg eac ctg ggc aga ctg get ctg tgg ggc ctg ggc 1680 
Leu Pro Thr Leu Leu His Leu Gly Arg Leu Ala Leu Trp Gly Leu Gly 
545 550 555 560 

atg tge tgc tac gtg ttc tea gcc cag cag etc cag gca gca cag gtc 1728 
Met Cys Cys Tyr Val Phe Ser Ala Gin Gin Leu Gin Ala Ala Gin Val 
565 570 575 

age cet gat gac att tct ctt ggc ttc ctg gtg cgt gee aaa ggt gtc 1776 
Ser Pro Asp Asp lie Ser Leu Gly Phe Leu Val Arg Ala Lys Gly Val 
580 585 ' 590 

gtg cca ggg agt acg gcg .ccc ctg gaa ttc ctt eac ate act ttc cag 1824 
Yal Pro Gly .Ser Thr Ala Pro Leu Glu Phe Leu His He Thr Phe Gin 
5.95 600 605 

tgc ttc ttt gcc gcg ttc tac ctg gca etc agt get gat gtg cca cca 1872 
Cys Phe Phe Ala Ala Phe Tyr Leu Ala Leu Ser Ala Asp Val Pro Pro 
610 ' '615 . 620 

get ttg etc aga eac etc ttc aat tgt ggc agg cca ggc aac tea cca 1920 
Ala Leu Leu Arg' His .Leu Phe Asn Cys Gly Arg Pro Gly Asn Ser Pro 
625 630 635 640 
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atg gcc agg etc ctg ccc acg atg tgc ate cag gcc teg gag gga aag 1968 

Met Ala Arg Leu Leu Pro Thr Met Cys lie Gin Ala Ser Glu Gly Lys 

645 650 655 

gac age age gtg gca get ttg ctg cag aag gee gag ccg eac aae ett 2016 

Asp Ser Ser Val Ala Ala Leu Leu Gin Lys Ala Glu Pro His Asn Leu 

660 665 670 

eag ate aea gca gee tte ctg gea ggg etg ttg tec egg gag cae tgg 2064 

Gin lie Thr Ala Ala Phe Leu Ala Gly Leu Leu Ser Arg Glu Kis Trp 

675 680 ■ 685 

gge ctg ctg get gag tgc cag aea tet gag aag gee ctg cte egg cgc 2112 

Gly Leu Leu Ala Glu Cys Gin Thr Ser Glu Lys Ala Leu Leu Arg Arg 

690 695 700 

eag gee tgt gee cgc tgg tgt etg gee cgc age cte cgc aag eae tte 2160 

Gin Ala Cys Ala Arg Trp Cys Leu Ala Arg Ser Leu Arg Lys His Phe 

705 710 715 720 

eae tec ate ccg eca get gea eeg ggt gag gcc aag age gtg cat gcc 2208 

His Ser lie Pro Pro Ala Ala Pro Gly Glu Ala Lys Ser Val His Ala 

725 730 735 

atg cec ggg tte ate tgg etc ate egg age ctg tac gag atg eag gag 2256 

Met Pro Gly Phe lie Trp Leu He Arg Ser Leu Tyr Glu Met Gin Glu 

740 745 750 

gag egg etg get egg aag get gea cgt gge ctg aat gtt ggg eac etc 2304 

Glu Arg Leu Ala Arg Lys Ala Ala Arg Gly Leu Asn Val Gly His Leu 

755 760 765 

aag ttg aea ttt tgc agt gtg gge ecc act gag tgt get gee etg gee 2352 

Lys Leu Thr Phe Cys Ser Val Gly Pro Thr Glu Cys Ala -^J.a Leu Pd.a 

770 775 780 

ttt gtg ctg cag eac ett egg egg ccc gtg gee etg eag ctg gac tac 2400 

Phe Val Leu Gin His Leu Arg Arg Pro Val Ala Leu Gin Leu Asp Tyr 

785 790 795 800 

aac tet gtg ggt gac att gge gtg gag cag ctg etg ect tge ett ggt 24'48 

Asn Ser Val Gly Asp He Gly Val Glu Gin Leu Leu Pro Cys Leu Gly 

805 " 810 815 

gtc tge aag get ctg tat ttg cgc gat aae aat ate tea gac cga gge 2496 

Val Cys Lys Ala Leu Tyr Leu Arg Asp Asn Asn He Ser Asp .Arg Gly 

820 825 830 

ate tgc aag etc att gaa tgt get ett eac tgc gag eaa ttg eag aag 2544 

He Cys Lys Leu He Glu Cys Ala Leu His Cys Glu Gin Leu Gin Lys 

835 840 • 845 

tta get eta ■ tte aac aae aaa ttg act gac gge tgt gca eac tee atg 2592 

Leu Ala Leu Phe Asn Asn Lys Leu Thr Asp Gly Cys Ala His Ser Met 

850 . 855 • 860 

get aag cte ett gca tgc agg cag aac tte ttg gca ttg agg etg ggg 2640 

Ala Lys Leu Leu. Ala Cys Arg Gin Asn Phe Leu Ala Leu Arg Leu Gly 

865 870 875 ' 880 

aat aae tac ate act gee gcg gga gcc eaa gtg ctg gcc gag ggg cte 2688 
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Asn Asn Tyr He Thr Ala Ala Gly Ala Gin Val Leu Ala Glu Gly Leu 
885 ' 890 895 

cga ggc aac acc tec ttg cag ttc ctg gga ttc tgg ggc aac aga gtg 2736 
Arg Gly Asn Thr Set Leu Gin Phe Leu Gly Phe Trp Gly Asn Arg Val 
SOO 905 910 

ggt gac gag ggg gcc cag gcc ctg get gaa gcc ttg ggt gat cac cag 2784 
Gly Asp Glu Gly Ala Gin Ala Leu Ala Glu Ala Leu Gly Asp His Gin 
915 920 925 

age ttg agg tgg etc age ctg gtg ggg aac aac att ggc agt gtg ggt 2832 
Ser Leu Arg Trp Leu Ser Leu Val Gly Asn Asn He Gly Ser Val -Gly 
930 935 940 

gcc caa gcc ttg gca ctg atg ctg gca aag aac gtc atg eta gaa gaa 2880 
Ala Gin Ala Leu Ala Leu Met Leu Ala Lys Asn Val Met Leu Glu Glu 
945 950 955 960 

etc tge ctg gag gag aac eat etc cag gat gaa ggt gta tgt tct etc 2928 
Leu Cys Leu Glu Glu Asn His Leu Gin Asp Glu Gly Val Cys Ser Leu 
965 970 975 

gca gaa gga ctg aag aaa aat tea agt ttg aaa a'tc ctg aag ttg tec 2976 
Ala Glu Gly Leu Lys Lys Asn Ser Ser Leu Lys He Leu Lys Leu Ser 
980 985 990 

aat aac tge ate acc tac eta ggg gca gaa gcc etc ctg cag gcc ett 3024 
Asn Asn Cys He Thr Tyr Leu Gly Ala Glu Ala Leu Leu Gin Ala Leu 
995 1000 1005 

gaa agg aat gac acc ate ctg gaa gtc tgg etc cga ggg aac act ttc 3072 
Glu Arg Asn Asp Thr He Leu Glu Val Trp Leu Arg Gly Asn Thr Phe 
1010 1015 1020 

tct eta gag gag gtt gac aag etc ggc tge agg gac acc aga etc ttg 3120 
Ser Leu Glu Glu Val Asp Lys Leu Gly Cys Arg Asp Thr Arg Leu Leu 
1025 1030 1035 1040 

ctt tgaagtctcc gggaggatgt tcgtctcagt ttgtttgtga caggctgtga 3173 
Leu 



gtttgggeec 


eagaggctgg 


gtgacatgtg 


ttggcagect 


ettcaaaatg 


agccctgtcc 


3233 


tgcctaaggc 


tgaacttgtt 


ttctgggaac 


accataggtc 


acctttattc 


tggeagagga 


3293 


gggagcatea 


gtgccctcca 


ggatagaett 


ttcecaagcc 


tacttttgcc 


attgaettet 


3353 


tcccaagatt 


caatcecagg 


atgtacaagg 


acagcccccc 


tccatagtat 


gggactggcc 


3413 


tctgctgatc 


cteccaggct 


tccgtgtggg 


tcagtggggc 


ecatggatgt 


gcttgttaac 


3473 


tgagtgcctt 


ttggtggaga 


ggcccggccc 


acataattca 


ggaageagct 


ttccccatgt 


3533 


etcgactcat 


ccatccagge 


cattccccgt 


ctctggttc'c 


teecetcctc 


ctggactcct 


3593 


gcacacgctc 


cttcctetga 


ggctgaaatt 


cagaatatta 


gtgacctcag 


etttgatatt 


3653 


teaettacag 


cacecccaac 


cctggcaccc 


agggtgggaa 


gggctacacc 


ttagcctgcc 


3713 


ctcctttecg 


gtgtttaaga 


catttttgga 


aggggacaeg 


tgacagccgt 


ttgtteccca 


3773 
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agacattcta ggtttgcaag aaaaatatga ccacactcca gctgggatca catgtggact 3833 
tttatttcca gtgaaatcag ttactcttca gttaagcctt tggaaacagc tcgactttaa 3893 
aaagctccaa atgcagcttt aaaaaattaa tctgggccag aatttcaaac ggcctcacta 3953 
ggcttctggt tgatgcctgt gaactgaact ctgacaacag acttctgaaa tagacccaca 4013 
agaggcagtt ccatttcatt tgtgccagaa tgctttagga tgtacagtta tggattgaaa 4073 
gtttacagga aaaaaaatta ggccgttcct tcaaagcaaa tgtcttcctg gattattcaa 4133 
aatgatgtat gttgaagcct ttgtaaattg tcagatgctg tgcaaatgtt attattttaa 4193 
acattatgat gtgtgaaaac tggttaatat ttataggtca ctttgtttta ctgtcttaag 4253 
tttatactct tatagacaac atggccgtga actttatgct gtaaataatc agaggggaat 4313 
aaactgttg 4322 



<210> 2 
<211> 1041 
<212> PRT 

<213> Homo sapiens 
<400> 2 

Met Glu Lys Arg Arg Gly Leu Thr lie Glu Cys Trp Gly Pro Gin Ser 
15 10 15 

Pro Ser Leu Thr Leu Phe Ser Ser Pro Gly Cys Glu Met Cys Ser Gin 
20 25 30 

Glu Ala Phe Gin Ala Gin Arg Ser Gin Leu Val Glu Leu Leu Val Ser 
35 40 . 45 

Gly Ser Leu Glu Gly Phe Glu Ser Val Leu Asp Trp Leu Leu Ser Trp 
50 55 60 

Glu Val Leu Ser Trp Glu Asp Tyr Glu Gly Phe His Leu Leu Gly Gin 
65 70 75 80 

Pro Leu Ser His L.eu Ala Arg Arg Leu Leu Asp Thr Val Trp Asn Lys 
85 90 95 

Gly Thr Trp J^la Cys Gin Lys Leu He Ala Ala Ala Gin Glu Ala Gin 
100 105 110 

Ala Asp Ser Gin Ser Pro Lys . Leu His Gly Cys Trp Asp Pro His Ser 
115 120 125 

Leu His Pro Ala Arg Asp Leu Gin Ser His Arg Pro Ala He Val Arg 
130 135 140 

Axg Leu His Ser His Val Glu Asn. Met Leu Asp Leu Ala Trp Glu Arg 
145 i50 ■ 155 160 

Gly Phe Val Ser Gin Tyr Glu Cys Asp Glu He Arg Leu Pro He Phe 
165 170' * 175 
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Thr Pro Ser Gin Arg Ala Arg Arg Leu Leu Asp Leu Ala Thr Val Lys 
180 " 185 190 

Ma Asn Gly Leu Ala Ala Phe Leu Leu Gin His Val 61n Glu Leu Pro 
195 200 205 

Val Pro Leu Ala Leu Pro Leu Glu Ala Ala Thr Cys Lys Lys Tyr Met 
210 215 220 

Ala Lys Leu Arg Thr Thr Val Ser Ala Gin Ser Arg Phe Leu Ser Thr 
225 230 235 240 

Tyr Asp Gly Ala Glu Thr Leu Cys Leu Glu Asp He Tyr Thr Glu Asn 
245 250 255 

Val Leu Glu Val Trp Ala Asp Val Gly Met Ala Gly Ser Pro Gin Lys 
260 265 270 

Ser Pro Ala Thr Leu Gly Leu Glu Glu Leu Phe Ser Thr Pro Gly His 
275 280 285 

Leu Asn Asp Asp Ala Asp Thr Val Leu Val Val Gly Glu Ala Gly Ser 
290 295 300 

Gly Lys Ser Thr Leu Leu Gin Arg Leu His Leu Leu Trp Ala Ala Gly 
305 310 315 320 

Gin -Asp Phe Gin Glu Phe Leu Phe Val Phe Pro Phe Ser Cys Arg Gin 
325 330 335 

Leu Gin Cys Met Ala Lys Pro Leu Ser Val Arg Thr Leu Leu Phe Glu 
340 ' 345 350 

His Cys Cys Trp Pro Asp Val Gly Gin Glu Asp He Phe Gin Leu Leu 
355 360 365 

Leu Asp His Pro Asp Arg Val Leu Leu Thr Phe Asp Gly Phe Asp Glu 
370 375 380 

Phe Lys Phe Arg Phe Thr Asp Arg Glu Arg His Cys Ser Pro Thr Asp 
385 390 395 400 

Pro Thr Ser Val Gin Thr Leu Leu Phe Asn Leu Leu Gin Gly Asn Leu 
405 410 415 

Leu Lys Asn Ala Arg Lys Val Val Thr Ser Arg Pro Ala Ala Val Ser 
420 425 430 

Ala Phe Leu Arg Lys Tyr He Arg Thr Glu Phe Asn Leu Lys Gly Phe 
435 440 445 

Ser Glu Gin Gly He Glu Leu Tyr Leu Arg Lys Arg His His Glu Pro 
450 455 . ■ 460 

Gly Val Ala Asp. Arg Leu He Arg Leu Leu Gin Glu Thr Ser Ala Leu 
465 470 475 ' 480- 

His Gly Leu Cys His Leu Pro Val Phe Ser Trp Met Val Ser Lys Cys 
. 4'85 490 . 495 

His Gin Glu Leu Leu Leu Gin Glu Gly Gly Ser Pro Lys Thr Thr Thr 
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500 505 510 

Asp Met Tyr Leu Leu lie Leu Gin His Phe Leu Leu His Ala Thr Pro 
515 520 , 525 

Pro Asp Ser Ala Ser Gin Gly Leu Gly Pro Ser Leu Leu Arg Gly Arg 
530 535 540 

Leu Pro Thr Leu Leu His Leu Gly Arg Leu Ala Leu Trp Gly Leu Gly 
545 550 555 560 

Met Cys Cys Tyr Val Phe Ser Ala Gin Gin Leu Gin Ala Ala Gin Val 
565 570 575 

Ser Pro Asp Asp lie Ser Leu Gly Phe Leu Val Arg Ala Lys Gly Val 
580 585 590 

Val Pro Gly Ser Thr Ala Pro Leu Glu Phe Leu His lie Thr Phe Gin 
595 600 605 

Cys Phe Phe Ala Ala Phe Tyr Leu Ala Leu Ser Ala Asp Val Pro Pro 
610 615 620 

Ala Leu Leu Arg His Leu Phe Asn Cys Gly Arg Pro Gly Asn Ser Pro 
625 630 635 640 

Met Ala Arg Leu Leu Pro Thr Met Cys lie Gin Ala Ser Glu Gly Lys 
645 650 655 

A-sp Ser Ser Val TVla Ala Leu Leu Gin Lys AJ.a Glu Pro His Asn Leu 
660 665 670 

Gin lie Thr Ala Ala Phe Leu Ala Gly Leu Leu Ser Arg Glu His Trp 
675 680 685 

Gly Leu Leu Pla Glu Cys Gin Thr Ser Glu Lys Ala Leu Leu Arg Arg 
690 695 700 

Gin Ala Cys Ala Arg Trp Cys Leu Ala Arg Ser Leu Arg Lys His Phe 
705 710 715 720 

His Ser lie Pro Pro Ala Ala Pro Gly Glu Ala Lys Ser Val His Ala 
725 730 735 

Met Pro Gly Phe lie Trp Leu lie Arg Ser Leu Tyr Glu Met Gin Glu 
740 745 • 750 

Glu Arg Leu Ala Arg Lys Ala Ala Arg Gly Leu Asn Val Gly His Leu 
755 760 765 

Lys 'Leu Thr Phe Cys Ser Val Gly Pro Thr Glu Cys Ala' Ala Leu Ala 
770 ■ 775 780 

Phe Val Leu Gin- His Leu Arg Arg Pro Val Ala Leu Gin Leu Asp Tyr 
785 790 . 795 800 

Asn Ser Val Gly Asp He Gly Val Glu . Gin Leu Leu Pro Cys Leu Gly 
805 eiO 815 

Val _ Cys Lys Ala Leu Tyr Leu Arg Asp Asn Asn/. He Ser Asp Arg Gly 
'■ 820 825 ■ - -830 
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lie Cys Lys Leu He Glu Cys Ala Leu His Cys Glu Gin Leu Gin Lys 
835 840 845 

Leu Ala Leu Phe Asn Asn Lys Leu Thr Asp Gly Cys Ala His Ser Met 
850 855 860 

Ala Lys Leu Leu Ma Cys Arg Gin Asn Phe Leu Ala Leu Arg Leu Gly 
865 870 875 880 

Asn Asn Tyr He Thr Ala Ala Gly Ala Gin Val Leu Ala Glu Gly Leu 
885 890 895 

Arg Gly Asn Thr Ser Leu Gin Phe Leu Gly Phe Trp Gly Asn Arg Val 
900 905 910 

Gly Asp Glu Gly Ala Gin Ala Leu Ala Glu Ala Leu Gly Asp His Gin 
915 920 925 

Ser Leu Arg Trp Leu Ser Leu Val Gly Asn Asn He Gly Ser Val Gly 
930 935 940 

Ala Gin Ala Leu Ala Leu Net Leu Ala Lys Asn Val Met Leu Glu Glu 
945 950 955 ' 960 

Leu Cys Leu Glu Glu Asn His Leu Gin Asp Glu Gly Val Cys Ser Leu 
965 970 975 

Ala Glu Gly Leu Lys Lys Asn Ser Ser Leu Lys He Leu Lys Leu Ser 
980 985 990 

Asn Asn Cys He Thr Tyr Leu Gly Ala Glu Ala .Leu Leu Gin Ala Leu 
995 1000 1005 

Glu Arg Asn Asp Thr He Leu Glu Val Trp Leu Arg Gly Asn Thr Phe 
1010 1015 1020 

Ser Leu Glu Glu Val Asp Lys Leu Gly Cys Arg Asp Thr Arg Leu Leu 
025 1030 ' " 1035 1040 

Leu 



<210> 3 

<211> 37443 

<212> ADN 

<213> Homo sapiens 

<22 0> 

<221> exon 

<222> (63) . . (105) 

<220> 

<221> exon 

<222> (3908) . . (4406) 

<220> 

<221> exon 

<222> (12307) . . (12412) 
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<220> 

<221> exon 

<222> (15010) . . (16825) 
<220> 

<221> exon 

<222> (21017) . , (21100) 
<220> 

<221> exon 

<222> (21321) . . (21404) 



<220> 

<221> exon 

<222> (24355) . . (24438) 



<220> 

<221> exon 

<222> (27052) . . (27135) 



<220> 

<221> exon 

<222> (27730) . , (27813) 
<220> 

<221> exon 

<222> (29917) . . (30000) 
<220> 

<221> exon 

<222> (34244) . . (34327) 



<220> 

<221> exon 
<222> (36123) . 



(37443) 



<400> 3 

tcaccatata 

atatggagaa 

ccaagaagac 

atgccccaaa 

tgagggctga 

ggaactagag 

aagggggcct 

tgtcaagaga 

ggatttgatc 

agggtggggg 

gcttcccctc 

agcatttgct 

gtccaggctc 

ctfctctttca 

ggtgtctttg 

agatttcgcc 

aaggacaatt 

aactgaagca 

cctgagctgg 

gagacaggac 

ctgctctgag 

gacagagctc 

caacgtcact' 



actggtattt 
gagaaggggt 
agaaagagtg 
.gaggaaggag 
ggattgagca 
ggaatgggag 
gctgtaaagg 
gtgctttact 
tcttagggag 
gcttggcccc 
ctctcctgtc 
cttggcccca 
aggcctgggc 
gcaaggaagt 
aagttgtagt 
tgaagagggg 
ttaggaaaca 
ggagaaactg 
ttagtgagaa 
aatgcctgct 
gtttctggaa 
cgagtcacgt 
agctggggtg 



aaagccacaa 
ctaaccattg 
aaaatcagag 
ggaacaaa'ta 
atgggaggtc 
gggatgggag 
gagcagataa 
tttacaatgg 
agaacagtgt 
agcagagact 
tgcaaggggt 
gagaaaccgg 
ctgggtttca 
gatcctttet 
aactgaagta 
aagcccgacc 
gataatgagt 
aagctagaca 
cagcactaag 
cagagacagg 
gaaggccagg 
ggcttgggcg 
•tgtatggctc 



gagcaggtgg 
agtgctgggg 
agttggggtg 
tgaccaatgc 
actggtgaca 
gacttgggga 
atgggattgg 
agaattagag 
tagggaggga 
caggacactt 
cagtgggctg 
gctggctgtg 
gggagggccc 
ctacatgggc 
gagatcaaaa 
aggtaataaa 
gaatattttt 
taatgattaa 
gccaggttct 
gcctggctga 
gcagaggtgt 
ggcctcccct 
acacgtaggc 



gctcatctag 
cccccagtgt 
tcctggagga 
ccctggcaga 
gttt cactgg 
cagcagtaca 
agccaaatga 
tgcattgtgc 
gaatgcagga 
gggaagttga 
agatttcagc 
gtctcaggaa 
acgtgggtca 
ctcaccttgg 
ggcaatgcag 
ggagtaagag 
tctctctctt 
cttcccaagc 
cctccccaga 
attggccctc 
ggtgatgtag 
tcctggtgtc 
caggctgccc 



ggatggagtg 
taggaaccag 
aatgaagaaa 
gcaagcaggc 
agctggatg.g 
ggcaacagaic 
agaaggggag 
actggtgggg 
tagctggggg 
gcttccctgg 
acttaagcaa 
ggaaggaggt 
ccccttgacc 
ggaggacaat 
atagactgac 
gaaggatgtt 
tcccaattta 
tggtgagctt 
tgtttaagat 
aggattctct 
ctgctgggag 
cacagaagcc 
taggcttggt 



60 

120 

180 

240 

300 

360 

420 

480 

540 

600 

660 

720 

780 

840 

900 

960 

1020 

1080 

1140 

1200 

12 60 

1320 

1380 
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wo 01/72822 PCT/FRO 1/00935 

gtgcaaggga ggggccccta cttacttgtg gcctgtcccc tcgtgaatgt gtctcatgtc 1440 

cccagtgggg tttttcagtg agggtcatgg tctccaggat gcacaaggct ttgtgccaga 1500 

attgcttgga attgcctagt tctggaaggc tggttggcca actctggcct ccggcttttc 1560 

ctttgggaat ttcccttgaa ggtggggttg gtagacagat ccaggctcac cagtcctgtg 1620 

ccactgggct tttggcattc tgcacaaggc ctacccgcag atgccatgcc tgctccccca 1660 

gcctaatggg ctttgatggg ggaagagggt ggttcagcct ctcacgatga ggaggaaaga 1740" 

gcaagtgtcc tcctcggaca ttctccgggt aagaggagca ggcattgtcc cgtcccagct 1800 

tgatcctcag ccttctttca tccttggccg cgacatgctc ccaggcctgg ggtcagatgg 1860 

ggagtgctga ctctgtttct gggctgtttt ctggggagaa tgggtcggcg ggtttttttc 1920 

cccaggacct gggcagggtc aatggtgggg gccgctgtcg catccttggc tggtgtttcc 1980 

acagctgaga accactccag ggccaagccc agagcttatt ctaccctttt ttgtcctctc 2040 

ttcccctgtc ctcggccacc ccaccctctt ggctcctctg cttagatgtg ggcacaagga 2100 

ggagaactcc ttggcctgag agaactacct tagatcctgg cttccagtgg cctctgcagg 2160 

ggggtacacc ctctctccca agcagccaga cacacaagta acctcattgc ctcagtttcc 2220 

ccatctgacc agcacagggc cccctgtgcc ccagcagcgt tctgagagat tggagctttc 2280 

tccttttgct taccttggct accgtatgag gacggataca gagtgttccc cccaccccca 2340 

gcccagggga tatttgattc atgaacattc cctcagtgtc tttgtggggg acaatgctgt 24 00 

gccaggctca gggatgccag gacgagtaag acccaggctc ccacgtggcc caggcaggga 2460 

gagagacaca taaacaacca tcaggaaaga ggtaaaatcc ccaggccact tggcatctgc 2520 

tcccttgagt gtctgggaat gtccctgatt tataaaaaga agctgacggc cctctttgtt 2580 

gtccatgcct acaccctttc actttcgttt cttcggggca ctgcagcagc ccttgtccac 2640 

agaccccatg acaatcgcag aactgaccat gctgagagat tttcttggct gctcagggac 2700 

cctgccaggg cttgaagctc ctggagggtc acttgccctc aaattcccag aacgcacagc 2760 

aggtcactga tgatagcagt ggcagcagtc tgtgcacggt ggtttcgagg gcgtgggagg 2820 

gaggtgaggg ccctagggca agtgtgtgtg ggaagtgttg atgggggaca aggcaccaga 2880 

acgctcggaa acaacttagt ttgcaccgta atttttcact tcgcctagga caggaccttt 2940 

agagcaatat tctgagtcta ccccttggag tagcagtgtg caaaacacac agcacgggct 3000 

tggggccccc gtggggaacc caaatgtaag agttagagac atgcattccg gagtcataca 3060 

tggctcgtgt tgaaatcctg actctgcctg tctagctgtg acacatcgta caaatcactt 3120 

agcttcttgg tgcctcagtg tcttcctctg tagaatgggt agatcatagg cactacttca 3180 

gagtggctgg gagggttcag tgaattcctg caggagagca cttagaatgg cacttggtgt 3240 

gtagtttatg cttaattaat attagccgtt actgaaactg ctgtagcctg aatccagcca 3300 

gcatgaaaga gcccctctca ccctgcttcg aagagaatga attccctgat tgtttggaag 3360 

atctctctct ctctctctgt cttttttttt tttttttgag aaacggtctt gctctcttgc 3420 

ccaggctgga gcgcaatggt gccatcttgg ctcactgcaa cctctgcctc ccgggttcaa 3430 

gtgattctcc tgtctcagcc tcctgagtag ctgggattac aggcgctcgc caccacgcct 3540 

ggctaatttt tgtattttta gtagagacag cgtttcaccg tgttggccgg gctggtctag 3600 

cgctcctgat ctcaagtgac cttgggagat ctcttgctcc taatattacc tcaagccttt 3660 

ttaaacgttt taagccggag accaagcatg gatatgggag ttaggggtct tgatttaatt 3720 

cttggttgct tcaaactctg tggaaccttg aggtgtttct tgccttctct gggtctcaat 3780 

tttcacatct atatggtggg gagcttggat tgggtaatgt ctgaggctag aaccatggcc 3840 

aactcgggtt ctgctggggc tgacttgccc tggccttccc tgaccaccct gcatctggct 3900 

tctggagaag tccctcactg accttgttct cctccccagg ttgtgaaatg tgctcgcagg 3960 

aggcttttca ggcacagagg agccagctgg tcgagctgct ggtctcaggg tccctggaag 4.020 

gcttcgagag tgtcctggac tggctgctgt cctgggaggt cctctcctgg gaggactacg 4080 

agggcttcca cctcctgggc cagcctctct cccacttggc caggcgcctt ctggacaccg -4140 

tctggaataa gggtacttgg gcctgtcaga agctcatcgc ggctgcccaa gaagcccagg 4200 

ccgacagcca gtcccccaag ctgcatggct gctgggaccc ccactcgctc cacccagccc 4260 

gagacctgca gagtcaccgg ccagccattg tcaggaggct ccacagccat gtggagaaca 4320 

tgctggacct ggcatgggag cggggtttcg tcagccagta tgaatgtgat gaaatcaggt 4380 

tgccgatctt cacaccgtcc ca^agggtga ggcactcctg gtgtgcatca cagagttctc 4440 

aggaaagggg tgcttagtca ccaagactga tttgtcctca tgaagtcagc ctgtggggta 4500 

acttggtccg tgggatttcc cctaaaaagg tagccaggca ggtaaaattt gctcttgact 4560 

cttggcagga aacatacaac tctttctttc ttcttttctt ttctttttct cactctgtta 4 620 

ccctggctag aatgcagtgg cacaatcata gctcactgta gccttgaatt .cctgcgctca 4 680 

agtgatcttc tggccttaga gtagctggga ctacggctgc tgtaccacca tgaacagcta 4740 

at'tttttttt tttcttttag agatggggtg ttgctatgtt gcccaggctg gtctccagct 480*0 

cctggcttta agcaatcctc ccgccttggc ctcccaaact gttgggattg caggcatgag 4 860 

ccactttgcc tggccaacag ' aacacttctg ccgagaggaa gtgtgtggtg gccaggaact 4920 

cagattctgg agccagaatg gtgcaggctc aaggtcaacc ctgtgtgatc tcaggcttcc 4980 

ctatggagcc tctccagcct cagtctccct tgtttcagtt tcctcatcta .caaaacaatg 5040 
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wo 01/7 

ttaa tagtca 
agtaatgctt 
gatactctgt 
ataacactgc 
agcttaaatg 
gttggtatat 
atgaccactg 
cctgagaggc 
aaggaaagta 
ggccagcact 
ggtgcttcat 
tactccataa 
tgacactgca 
ttttccaaaa 
acataaataa 
agagcagaag 
tggactgacc 
gttacaagat 
ctgaggggtt 
' agaggaagta 
atcatgatgg 
aatctattgg 
attaggaaag 
gtctcactgt 
tcgaacttct 
ctagcaccac 
gtctcaaact 
caggcatgag 
agaaagggct 
agcagggatg 
ctgaggttta 
gtgactctga 
gtggtatatc 
ttgtcattga 
aagaactaaa 
ccagacactg 
tgtgactaca 
cccagctaga 
tcataaaatg 
aaacctgagg 
taaagttgat 
at taacttaa 
ttcatatgta 
acctggggcc 
atcatctctt 
tattgttcta 
cttaaattag 
gcaggtggat 
ctctactaaa 
ctcgggaggc 
agatcgcact 
actctagcct 
gttactattg 
agggacttgg 
gt cggcaatg 
gtaggactga 
ctttgtacag 
gctaaacact 
gaagaaacga 
gcttgcctgg 
ccattttgtt 



2822 

aatggtgcct 
aggatagtgt 
acttgtacac 
agtatattga 
tttatgtagg 
aacagcccct 
agtatttttg 
agatggaaca 
gtttgaataa 
ggtcattgac 
acatatttgc 
acatttgttg 
gtgttaaaat 
atgtatgtgt 
atttgtcttc 
tggtgcagtc 
ttagtttctc 
tgtgtcttgt 
tggagaaggt 
catggattgg 
aaatcagaaa 
atgcagctaa 
aaggaaggca 
gtcacccagg 
gggctgaagt 
cataccaggc 
cctgggctca 
ccactgcgcc 
aaatagacag 
ggagacaaca 
agcctttaga 
tttggtggcc 
caa ccaaca t 
ttgcaggtta 
ttccaaaaat 
tacccagtcc 
ctgtttctta 
atttgaatcc 
tgggggcttt 
ctggtaacac 
agggctgagg 
acatttttta 
tagtgtaaac 
ttctttaact 
tgcctttctt 
ttttgaaaaa 
gctgggtgca 
cacaaggt ca 
aatacaaaaa 
tgaggcagga 
gcttgaaccc* 
gggtcacaga 
ccttttctta 
tctggctttt 
ccatgaatga 
tgtgaattag 
tcagtggtaa 
cctgtggagt 
tattagttca 
acatctagga 
tgaactggtg. 



atcctataag 
ctattaccac 
ttttatttct 
atttatttta 
atttctgaca 
gagaatgtag 
aaactctttt 
atcattaaca 
gctcacagta 
ttattcatcc 
ttaaagtttg 
atgaaataag 
gggctgggtt 
tgttcacatg 
aaggctgcac 
ctctctgatt 
ttataatttg 
catctttaaa 
agcctagatc 
tgaagaaaag 
atattcagaa 
agcaggacat 
tttgtttatt 
ctgctggagt 
gatcctcccg 
taattttttt 
agtaatcctc 
catctaaggc 
caaaagcaaa 
gatctgagga 
atccagctct 
ttcccttagt 
gtcttcccaa 
gggacagaaa 
acccattgct 
attccctgta 
a caatgaaga 
aggcctgttt 
gtgtggtaaa 
cagctgtaat 
tgtcagactg 
aattgggaaa 
tgttcccatc 
gcaactgcta 
taatgtttta 
ctgagtagca 
gtggctcaag 
ggagatcgag 
attagccaag 
gaatcgcttg 
gggaggcaga 
gcaagactct 
gatgaaggtt 
ccttccctgg 
gtctggggaa 
gtgctgtgtc 
agttgccaaa 
gaaatgaatg 
tggtgaagac 
gataactgcc 
gccatctact 



gctcttggga 

tggctgctat 

gtctgtttta 

taattaacat 

tgaaattgca 

taactcagca 

gttttcttcc 

ttccacttta 

gttaatgagg 

atcattcatt 

ttgtgttcat 

tgagttactg 

ggggaacatt 

agtctggata 

taaagctggc 

agttgcacgt 

ttaggggaat 

agttcagcaa 

cctagggccc 

aaatgggata 

ccatacaata 

agggggaaat 

tatttgttta 

gcagtagcac 

cctcagcctt 

tttgtagaca 

ctccctcggc 

tgaattttaa 

cattgaaggt 

gagcaggaga 

ctctgagctc 

ggccttactg 

atggcctttt 

atgctgtgga 

actattgact 

ttgttttatt 

aactgcccaa 

tcctccagag 

cttgctcagt 

accagctgtc 

agctctgaat 

tgcaccatgc 

acccaggtta 

gaggtaaaca • 

gcatctttta 

agccaaaaat 

cctttaatcc 

accatcctgg 

aatagtggca 

aacccgggag 

ggttgcagtg 

gtctcaaaaa 

cccaaggcag 

gaatttataa 

atattgggct 

cggaggaaaa 

ggctattata 

tcctcagctg 

aagtcaaata 

ctcaacttgt 

ta.tagtatac 



ggattcagtg 
ttattatttc 
aattaacagc 
agcatattat 
ttagatcata 
gagaccagaa 
aaatagtgat 
taaatcggga 
gggccagtgc 
tattcagcca 
agagctttgc 
aatgaatgat 
ttagtttttg 
accctagatt 
tcacatggct 
acagaagaca 
tgaatcagcc 
tgtgatgtgg 
agagaagaca 
actcatgggt 
atgagaatat 
ttacaacctt 
tttatttatt 
gatcataaat 
ctraagtaggt 
cagggtcttg 
ttcccaaagt 
tgagctaaga 
tgggactgag 
ttttgaaagg 
cctttgagct 
atttcatttg 
aatttcctat 
atgaaacaaa 
gagtgaattc 
taagcctcac 
atcgcccatc 
cttgtgctat 
tgggcatagc 
cgtctgactc 
tgcctgattc 
a tacagaaga 
aaaaacagga 
ctggcttgac 
aaataaatcc 
agctgtgtaa 
cagtactttg 
ccaacatgga 
tgtgcctgta 
gcagatgttg 
agccaagatc 
aaaaaaaaaa 
ggaaagctaa 
ggacctcttc 
cattgcaact 
tggccagagg 
gctcacagga 
actgaggcag 
tagataaagg 
ttgaatcttg 
agccatcaac 



PCT/FROl/00935 
agttaatttg 5100 
tgttatgagt 5160 
acaacagacc 5220 
aaactaatat 5280 
gatgttcaga 5340 
ggtcagagaa 5400 
tcttagggct 5460 
agttgagacc 5520 
tggaccaatt 5580 
gaatctatta 564 0 
acacggtagg 57 00 
tgaattagaa 5760 
tttttgtctg 5820 
gagattgatg 58 80 
aggtatttac 5940 
tattcgttat 6000 
catctgagaa 6060 
tacagatggt 6120 
ggatgtgaac 6180 
caaagaagaa 6240 
tatttatcaa 6300 
aggtgcctag 63 60 
tgagatgggg 6420 
cactgaagtc 6480 ■ 
gggacacagg 654 0 
ctatgttgag ' 6600 
gctgggatta 6660 
attcatctta 6720 
ctgagtgggt 6780 
attgcactgc 6840 
ctgacattct 6900 
gatggtgctt 6960 
aaagaagtag 7020 
atgcaagtta 7080 
ctactgtgtg 7140 
aagggtatag 7200 
tgggaagcgg 7260 
tctctgtctg 7320 
agttgttagg 7380 
atgcaactgt 7440 
ctataacaat 7500 
gtgtgtatat 7560 
tgttgccagt 7620 
ttttgtgtaa 7680 
ccaaataatg 7740 
agaaaggtca 7800 
ggaggctgag 7860 
gaaaccccgt 7920 
gtcccagcta 7980 
cagtgagctg 8040 
gcaccactgc 8100 
aaaaagaa'ag 8160 
gtggagtctc 8220 
tgggaagtca 8280 - 
ggagggtctg 8340 
aagtgggctg 8400 ' 
atgggccaag 8460 
cgggagttga 8520- 
ttagggtcag 8580 
agtcactgct 8640 
ctgagatttc 8700. 
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wo Ul/72822 
cctacatggt cttcctgcct tggtctcctg 
ggtttactac attttgctag accgtatcct 
agttaaaatt tctgaggtct cacatgtctt 
gctgggtata aaattctggg ctggccatca 
cattatcctc tcttttcaat attgcttcta 
tttgagacag tgtctcactc tgtcacccag 
ctgcaacctc cacctcctgg gtttaagcga 
gattacaggc acccaccacc acacccttta 
gctggtcttg aacttctgac tttaggtgat 
attaaaggcg tgagccacca cacccagcct 
cttttaaaat tttcttttag tccccagaat 
cttccattat attagtcacc caagaggtac 
gaaatgttct tgattagttt acaggtgatt 
catgaaacta ctattaattc aatgttagaa 
ttttccatct ctgtgtcttt ttgctctact 
actcttgagt ttttcatttt tgatgtcatg 
attctttttt gtagtatctt actcttgttt 
atcataagat aggtgggttc tttgtttgtt 
ttttctacaa gtttctttcc ccttcccccc 
tttctctggg ctcatgatac tctttggttt 
aaacttgttg agcatgcggg tgaaacttgt 
agattgacag tgtttatatc tttagatctc 
caccacagac cttttgcctg gggataaacc 
agtcttcctt gttttagtca tttccttcag 
gagcccttta cagatcctag ggtacacact 
taagatttgg ctttcaggag tctcctcagt 
tgagcacctg atttgtgcca gacattcttc 
cagacaaaaa tctttgtctt ggaaatacac 
ccaaaggaag gaaattacag cgtgtgctag 
agtgggtttg ggagttgaga gtttgggaag 
agtcagagtt ctcacttaga aggtgaaatt 
tagccacatg gatggctagg ggaaggcttc 
cagaggcagg agcatacctg gtagttttag 
aagagggggc atgaaaggag aaacttgggt 
gttttgggcc ctgaaggtta ctattggact 
tattgggacg tttgtacagg agcaatgtga 
tggctgtggc attaaggcta ggctgtgggg 
cagcctgtgc agctttccag ataagcaggg 
aggtgacaag aaatgactct atgtctggta 
cactagagac ctggctggtc cacatggagt 
caaagactta atatgaaaaa aaaaatttaa 
ttttttgaga cccagtcttg ctctgtcacc 
tcactgcaac ctcc'gcctcc caggttcaag 
tgggactaca ggcacctgcc accacgcctg 
ggtttcacca tgttgtccag gctggtctgg 
tggcctccca aattgctggg attacaggca 
ttttctacat ggattacatg ttgaaatggt 
tatatgatta aagttgattt catctatttc 
gatttgaaat tccacatgcg gcttgcattt 
gccctttttg ggacatgctt tgaaggtgga 
aggcttcaag ggtgactcca agacttcggg 
tagccaagat gaggaaggct gtcggtttgg 
ttgaatatgt tggaggtgtt tatgaaactt 
tgtgcaagtc cagggttcag ggagacagtt 
ggagagattg tattcaaata ttcaatccat 
tgatttacag cctgcagaat cattttccct 
tcatttattt ttcagttatt cactgtttta 
catgcgttca attcaccatc caacactgta 
gttgtttttt tgacctttta ttctggatgg 
agtaagcctt. cccacattgc tccatcagcc 
ctgtaggcaa gaaggctgct- tgatcttgcc 



PCT/FRO 1/00935 
tatcctgaat cctatggcct cttcttccct 8760 
ccagtcaatt ccttagaatg aatgtatgaa 8820 
aaagttccct catactggat tgatagtttg 8880 
ttttccttca gaattttgat tgcattattc 8940 
agaattccaa aacctttttt tttttttctt 9000 
gctggaatgc agtagtgtga tctcagctca 9060 
ttcttcttcc tcagcctcct gagcagctgg 9120 
gtagagatgg ggttttgcta tgttggccag 9180 
ctgcctactt cggcctccca aagtgctggg 9240 
ccaaaaccat tttaaaactc tttctggaag 9300 
tttaaaattt caattatgtg ccttggtgtt 9360 
tttcaatctg gaaacttctc tatgttttgg 9420 
tcttcctctc cattttatct cttctctttt 9480 
ttccttgact gatcatttaa ttttcttcta 9540 
tttctatgat agtcacagct ctatctttaa 9600 
attttaattt gcaagaggta ggtttgactg 9660 
tatggatgca acatcttctt tgacttaagg 9720 
tgtttgactg tttttcaccc tatgtaaact 9780 
tttttggctt ctatctccca cattagatgc 9840 
tctttctcaa gattgacagg taggacttta 9900 
ctaccatgaa tttcactgta gatattttgg 9960 
acctcctggg ttgatcaagt tatctgagta 10020 
agaaatctgt ttcagaaacc actttgattc 10080 
ttccggaggt ocgtcatgct gatcattcca 10140 
gcatggtttt caactttctt gttttggggt 10200 
ccgttactat tcattcaatc agcaagtcct 10260 
taggtgttag ggatacctca gtgaacaaaa 10320 
acactccagt caggggagag ggacaataag 10380 
aaggtgataa gtgctgtaga aagtaagtaa 10440 
gggataaatg atggcaattg taaatagagt 10500 
caagtaaaga cttgaaggag gacagggaat 10560 
caagctgaga ggacagccag agccaaggcc 10620 
gaaacaggag gccaggatgc tgagtggagt 10680 
ccacgtggtt ctagacaggt atttttgtct 10740 
tggactctta ctctgaggaa atagggacgc 10800 
cctgagtttt gtttgtaaag gattagactc 10860 
gcaggaacag aagcaggggg accagttttg 10920 
attgtggctt ggaggaggat ggtatagagg 10980 
tgtagatatt ggccacagat ggcatttgag 11040 
ttccataagc acataataca catcagattt 11100 
cgggccccgg gaattttttt cttttttttt 11160 
caggctggag tgcagtggtg tgatctcggc 11220 
tgattctcct gcctcagcct cctgagtacc 11280 
gctaattttt tgtattttta gtagtgatgg 11340 
aactccggac cttaggggat ctacccgcct 11400 
tgagccacca tgctcagcca tatcttgcta .11460 
aatgttttgg ctattgtgga ttaaatagaa 11520 
ttttaacttt aaaaaatatg tctgttagag 11580 
gtgacctgca tttcatttct gtggaacagt 11640 
gtcaacagga tttggcagat tacagacgag 11700 
gcagagcacc tggaagaaag gggttaatat 11760 
caggtgcatg ggcaggttag 'gagtttagtt 11620 
ttaagtggag atggaaaata ggcagttgga 11880 
caggctggag atgaagatgt gggagtctga 11940 
gagacttgat gaaatcactt ctcttccaaa 12000- 
atctttgtag gtttatgtct tcattttgtt 12060 
gtgagttttg agtaggagcc agattggatg 12120 
ttaactactt gaaactcatg tggttgttcg 12180 
aagagagatg cttatgaagt 'tgcagtaatc 12240 
ttcctggaag aataatgtct tctgcctttc 12300 
acggtgaaag cgaatggatt ggctgccttc 12360 ■ 
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cttctacaac atgttcagga attaccagtc ccattggccc tgcctttgga aggtaggtgt 12420 

atgttctcag ttaatcagaa agggaagggc agtcagtgca gatccatggt taagagcaga 12480 

acacacctcg gttaacatcc catatgctgg cagtatagcc tccctatgac tcaatttcct 12540 

tgttttaagg ctagcaccac cccgtctcat tgggattttg ggagcattaa aaggacaaaa 12600 

gcgtgtaatg ttagctatta gctttcatta tctcccacac agtatactga' caattgggct 12660 

accatatatt gagggctaac taaaggtgtt acttaccatc caaactctca ttatctgtac 12720 

cgaaaagata tggacacatg ttttgagtta gggctggtat ctcttgatct ctgaaattta 12780 

gcagctcaca atgggaaact caagaaccaa gtggatctag agactctggt atccctcagt 12840 

gcccagggtc accacccaaa ctcaggaaca ggaggggctt ggaccgcacc acttgaacat 12900 

accaggcatc ctgccaggtg ctttatggac aatgtctacc ctttgcaaca accctgagaa 12960 

gtaggtggtg tttttttcca ccttatagat, gtggaaactg ggcagggagg ttaagtgacg 13020 

agggagggga agatgggtct gattgtaaat tgtccccacc tacactttct cttttcttgg 13080 

gagaagaaat gtcagttgta aagagagagt gcaagcctgg cactctttag ggcttgttcc 13140 

tacaccactg tagggaaagc tcattggcac tgaagccccc tgagctgtgt gtggtgctgg 13200 

cagatgggtc tatcaccctg gactgtgtcc tctgggcagc aagcaagcct gtgggcgggg 13260 

tggctggaag tctgtgcctg gcactcgcga gtgcaccgtc tcattgaaga acaggatcta 13320 

aacatcagtg cgccacagca gggtgcgcgg cacggagtgc aggccctggt ttggcccttg 13380 . 

gttgaggttt gctgttgaca tcatcaagca cagctagtca ctgtaagacc aggccagggt 13440 

gcaagattcc ccacacttct aaaggtgaca attggtgtat ttatttctct ataaaatgac 13500 

attttttttt tctggagaat tttagtatca ttggtgatga ctggaaaacc tgcatcagaa 13560 

atcaggtcgg aagaggaaga tatatatctg atatgtactg gagaggaaga tatctatctt 13620 

atggtctaag ttcagggatc ctggtatatt cagagggcag aaagctcagc aataatcatc 13680 

aactctggga acagaggtga cataaacaca gggcgtcccc tttgtgtgac tgcagatagt 13740 

catcagtgag ctcagagctc tatgaaaatt acttgctagt ttttgggttg aaaatagtgg 13800 

gccagtgttt ggttgggggc agtgaggctg tgatggcggg ggaccatgcc aagctcctac 13860 

cagcctggga cgctaaacca gcacttcccc atttcctgaa aggggaacta aactctgaca 13920 

caggaaatgg tttgcttgca ttactttcag gatgagaaag gaagagcact ggccttccaa 13980 

acacaccccg tgcatgaaaa ctctccctgc atggggtgca tggggaggat ggggaagtgg 14040 

aggcaggatc acagactctt gttcgagtgc tcagctgggg caccccggtg accccgaggc 14100 

cttcccttgc taggtccacc cagatcaatc aggatcatct ccccatctcg aagtttaact 14160 

ttatcacatc tcagagttcc ttttgccacg taaggtaaca tattcacagg ttctgagaat 14220 

ccggacatgg acatctttga gggtctattg ttgtgcctac tatatccatg aataataatg 14280 

ataataagca ccattttttg agagtttgcc atgtcagata ttcttttaaa ctgtatttta 14340 

tctcgctgcc tcctgaaaaa atccttccag gtgtatattg tccccatttt tacagatgag 14400 

agaactgagg cccagaaagg ctaaatggct tgcccaagtg tatggtggac ccaggttttc 14460 

aaactcaggt gtgtctggct tcagagactg ggctcctgag cccttaagcc ctttgttccc 14520 

ctttagaaaa agtcacctga ggctgagtgg tgaagggatt tatccaaagc cacccggcca 14580 

ctatggcagg acagatatca gaatacaggt cttccgatcc cagcccagag ccccttcccg 14640 

tcatctagaa ctcctcctgg tgtcagtaat gataacggca gtcactgatg tcttttgagc 14700 

acttactttg tgttgagcac ttacactgtg ctaagcactt gacataggtc atcttagttg 14760 

atccgtgtaa aactctgtga ggtagtgacc aacatttctc ccaccttaca gaggtggaaa 14820 

ctgagggtta ggaagtttcc ttgactgtcc tcaaagtgca cagcttgtga atggaggagc 14880 

caggatgggc gcccgctggc tctcctatcc cttcagttat gtcagcgtcc cccgcagcag 14940 

cccattgtct ggttaggtcc cgtcttcacc atggtgccac cttcatctgc ctcttcttct 15000 

gccttccagc tgccacatgc aagaagtata tggccaagct gaggaccacg gtgtctgctc 15060 

agtctcgctt cctcagtacc tatgatggag cagagacgct ctgcctggag gacatataca 15120 

cagagaatgt cctggaggtc tgggcagatg tgggcatggc tggatccccg cagaagagcc 15180 

cagccaccct gggcctggag gagctcttca gcacccctgg ccacctcaat gacgatgcgg 15240 

acactgtgct ggtggtgggt gaggcgggca gtggcaagag cacgctcctg cagcggctgc 15300 

■acttgctgtg ggctgcaggg caagacttcc aggaatttct ctttgtcttc ccattcagct 15360 

gccggcagct gcagtgcatg gccaaaccac tctctgtgcg gactctactc tttgagoact 154-20 

gctgttggcc tgatgttggt caagaagaca ■ tcttccagtt actccttgac caccctgacc 15480 

gtgtcctgtt aacctttgat ggctttgacg agttcaagtt caggttcacg gatcgtgaac 15540 

gccactgctc cccgaccgac cccacctctg tccagaccct gctcttcaac cttctgcagg 15600 

gcaacctgct gaagaatgcc cgcaaggtgg tgaccagccg tccggccgct gtgtcggcgt 15660 

tcctcaggaa gtacatccgc accga-gttca acctcaaggg cttctctgaa . cagggcatcg 15720 

agctgtacct gaggaagcgt catcatgagc ccggggtggc ggaccgcctc atccgcctgc 15780 

tccaagagac ctcagccctg cacggtttgt gccacetgcc tgtcttctca tggatggtgt 15840 

ccaaatgcca ccaggaactg ttgctgcagg agggggggtc cccaaagacc actacagata 15900 

.tgtacctgct gattctgcag cattttctgc tgcatgccac ccccccagac tcagcttccc 15960 

aaggtctggg acccagtctt cttcggggcc gcctccccac cctcctgcac ctgggcagac 16020 
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tggctctgtg gggcctgggc atgtgctgct acgtgttctc agcccagcag ctccaggcag 16080 
cacaggtcag ccctgatgac atttctcttg gcttcctggt gcgtgccaaa ggtgtcgtgc 16140 
cagggagtac ggcgcccctg gaattccttc acatcacttt ccagtgcttc tttgccgcgt 16200 
tctacctggc actcagtgct gatgtgccac cagctttgct cagacacctc ttcaa.ttgtg 16260 
gcaggccagg caactcacca atggccaggc tcctgcccac gatgtgcatc caggcctcgg 16320 
agggaaagga cagcagcgtg gcagctttgc tgcagaaggc cgagccgcac aaccttcaga 16380 
tcacagcagc cttcctggca gggctgttgt cccgggagca ctggggcctg ctggctgagt 16440 
gccagacatc tgagaaggcc ctgctctggc gccaggcctg tgcccgctgg tgtctggccc 16500 
gcagcctccg caagcacttc cactccatcc cgccagctgc accgggtgag gccaagagcg 16560 
tgcatgccat gcccgggttc atctggctca tccggagcct gtacgagatg caggaggagc 16620 
ggctggctcg gaaggctgca cgtggcctga atgttgggca cctcaagttg acattttgca 16680 
gtgtgggccc cactgagtgt gctgccctgg cctttgtgct gcagcacctt cggcggcccg 16740 
tggccctgca gctggactac aactctgtgg gtgacattgg cgtggagcag ctgctgcctt 16800 
gccttggtgt ctgcaaggct ctgtagtgag tgttactggg cattgctgtt caggtatggg 16860 
ggagcaccat caaggctaag tgtgggagca ccgagctggg ctctagaagt ctgggcccag 16920 
cttcgcctct gccaccctgc tttgcaacac tgcccagatc ccttcccttc tgggccttaa 16980 
tttcaatatg tgatgatgac agccacactt tattgactgg cctatgtgct gggtctggtg 17040 
ctatgctttc cggaatgacc tcatctaatc tctacaacca ccctgggggg taggcaggaa 17100 
tgttattatc tccattatcc ttgacttgag gctcagagaa gtgaagtaac ttgtccagga 17160 
aatggcagag ctggggttca caaattgcat cattctgatt acaggttttc tgcctcccac 17220 
cagtctatgg atacacttca gaggctccct gaaaaccttg aggtcacttg cagaaagttt 17280 
tgtgtagtat gtgtccgtat caggaacaac accaaatcag aggtgacttg tgccccatca 17340 
gagactttaa caccccaacc agatgggaat ttcaggaccc aagaaataga aagtggctgc 17400 
agggttacaa ctactgttgg attcctgagg tagcacagtg ttcaaacagg atttcagcac 17460 
tacccgtatt gcttagagcc ccagccaaag atgtgaggtt ttgccctttg gagaatctgt 17520 
gcccctgaac tcgggggcct ctttccacat cttgggggca ggcaagggca gagggtgtgc 17580 
ctaggcctgc ggatcagcat gcgacagatt ccccaacatc cttccagctt gaaaggggat 17640 
tgccctgctt ctatttagaa cctataggaa agcagaagtt ctagattgaa gttaaaattg 17700 
attcccagcc tccaggggct ttgggctaca cctggatgac cttaattgac cctaagcatg 17760 
ggacaaacca cttcctgaga gtattaggat ggtatacatc ttctctgggg gcaaagcaac 17820 
aagauttatt ttucatcatg gaccaaacac atggataccc actagaaact gtgtagtgaa 17880 
ttttgttaac cctgacatag ggaccatggt ctttaggtta aagcataata acaacataat 17940 
acataacata tatagcgaat atatatatgt attatatgca atgaatgtaa atatgattat 18000 
acccatcatg gtcttggagg aaacagatga cacacttaaa atgggtgttt tgaggagagt 18060 
ttgaaaaaca gattgtttac aagccatggg caggagttag gaagagtgag agggttggtg 18120 
caggggcctg gggttagtaa cagctggggg agggtagact tgaaggggga aggggaggga 18180 
gactaattag ctggggggaa ggtatggaga cggctgcctg agcttctgca aagtggaaga 18240 
atactgcttg gccctaactc ctcaccccaa ctcttgctcg tggccagcgc cttccaccag 18300 
ctggacccat cagggaggcc gagtgggctg tctgctggag tagtccccag gcatcagcct 18360 
cccaggagcc agggacgggt agagaagggg gagagtggat ctggccaggc aaatggaaaa 18420 
cagccagcac caaactctat ttccctagga gggaggatca tgatactttg agtgggaatt 18480 
tggaaacctg tctgttggag caatttccct gatagaaata agaatgtgca ttttcctggg 18540 
tagtagactc agtttttacc ccaagaggcc aggcatcact ggcctgtgtg atcctcatag 18600 
gtcagtccat ctctggaatt cttgaatg'ga tcatccatcc ttgattaggg atgtccccgt 18660 
gattaccagg gtgtgcagaa gggctctggg aaacctgtgg gtctgtctct gtgttcagag 18720 
aaaggtgagg gtggcctggt tctagctcat ggtgctcaga ctgtggtgtg taaaggcact 18780 
cgtggcaatg cagattcctg ggcctgcctc tagtgattcc cattcagtag gtttggggtg 1B840 
gggcccagga aatctatatt tttcacagac acccctggtg attctgatac aagtggtctc 18900 
gccctgggag aactactggt ctgcagcaac cagcttggtt ttccattagc aattactgtc 18960 
cttgagcgag ttttactgct cttcacctta cacacactaa aactgccaag gccgtagggg 19020 
aggggaagca a.ccatgaggt tgctgtgagt gcactgtgtg tgtgtgtgtg tgtgtgtgtg 19080 
tgtgtgtgtg tgtatgagag agagagagag attgagaaag agaggaaggg aggaaggggg 19140 
agggcacagg ctcctctccc acagtgccaa cctgcctctc tcccacttga agcgtttcca 19200 
tgccaactga aatcctcagc ctctaggaaa ccctatatac acagtgcccc tatataggtt 19260 
tctttagact ctggctctct cagactctag agtgatggct ttaaaagttt tatgttaccc 19320 
- acagagagag agcacgcacc accatgtaaa catggaacct aagtttcaca aaatgacttc 19380 
gctttatgaa ctctgagaca ctctgctctc ttctgttctg ' ttctatttcc attttagaaa 19440 
tgctgctcag gaccttcaaa atgatttgca tgacctgcaa cctgcagtct gaaaaatcac 19500 
tgcactacag aagtggccat aagaggccct gagggagaag ctgcacaatg tcatggttaa 19560 
gagtggggtt tggagccaag ccgcctaggc tcaaagcctt tatgtgccgt acaaccttgg 19620 
caaagtcact tcgcttgtct gtgcctcagt ttctttctca cgaatgctca taataatggt 19680 
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tcccatttca 
tagtgatcag 
aaggcttta t 
ttggaaacgg 
atgcaatctc 
gactacaggc 
tttcactgtg 
ctcccaaagt 
agatgaagag 
ggcactccag 
taaagaatca 
cttgattgcc 
gatgttgtga 
gctcggcagg 
cctcactaac 
tctactgtct 
ggctgcacct 
tgattatcat 
ctaaggattc 
catagtgcac 
ctccatctat 
tctttttggg 
tattttgtct 
ttgaatgtgc 
gacaatgggc 
tgatgggctg 
gggaagggca 
tctcttctgg 
atggctaagc 
cttattccct 
tggcactgcc 
aagcaggggt 
acttcctgtc 
tttctgtgtc 
gctcgtcctg 
gctgcaacac 
tggttctgca 
tacctgatgc 
cttctctctc 
agtaaagaat 
gccattttaa 
cacaggtgcc 
cacaagcctg 
tttcagaaat 
gatgttctaa 
catgcttttc 
aagagagtaa 
aacactatgt 
acccttcttc 
tggatgacgc 
agaaggagaa 
ctggatgtca 
gcgctggacg 
gaatagcatg 
tttggactgc 
gggggcaggg 
ccgaggtttg 
cgtttcccct 
agcaagcaag 
cgagtggctg 
agtccggtcc 



72822 
ctggcttgtt 
tgctagcgat 
gtgcacagcc 
agtctcgttc 
tgcctcccgg 
gcctgccacc 
ttaaccagga 
gctgggatta 
accagcaaat 
agcctgagct 
tgtgcacagt 
agctccaggg 
tcaggtgagt 
gactagcctg 
cacagcctat 
gctgacctag 
ttcgcatata 
gttccttttg 
cagggttctt 
cacgtcacct 
gcagggtttc 
ggatttgtag 
ctttagtttg 
tcttcactgc 
tccaagtgcc 
gggcaggggc 
accctgggat 
aactgaacag 
tccttgcatg 
ggaaactatt 
cacactggct 
tctctaatgc 
ttttgacctt 
taagagtgtc 
gtgggggagg 
* tcccaggagg 
tttctgctac 
ctttaaattg 
tctcagatat 
tgcttccat c 
aatggcgggc 
aatttgtaca 
gaataggctg 
ggaggctgag 
gaccccagtg 
ccaataccta 
tagcaactca 
gaatgtggac 
ttgggaagat 
atgcagcact 
tcatctgctc 
ggagcagacg 
gggggctgat 
caatttaaaa 
agttgatttc 
attaccgtat 
aaccctcatt 
tctgtagaat 
ttaatccaca 
aaagatgatg 
tccaagcagg 



gtgaggatga 
catgattcta 
tggtgaggct 
tgttgcccag 
gttcacgcca 
acgcccggct 
tggtctcgat 
caggcgtgag 
aactagtaag 
gttaacca tt 
tgttaaaata 
tatgggcctg 
tttgggaatg 
ttggagtggt 
atgcctgttt 
atgatggtaa 
tcagctcctt 
cagagatgga 
tagtaggggg 
ccctggccag 
ctggaagcac 
atttttttct 
cgcgataaca 
gagcaattgc 
ctggtctcac 
tgtttgcatg 
ttggtgctca 
tctattcaac 
caggcagaac 
ttttgcccca 
cctgacctcc 
tgtgatctcc 
tagcccgtag 
acagctttct 
catacacagt 
tcctttcacc 
tccagtgtct 
cccctctagc 
tcttgcctcc 
tattctttta 
cacatagctc 
aaggact cag 
tggccagacc 
tttgtggcca 
gatgcctgaa 
cacacctgca 
taataaaata 
tctctccatc 
gtgtggtggt 
gtgctctagc 
ccagagatcc 
atcttgatga 
tcacgtcctg 
tgtatgaatt 
agataactga 
atcattgtaa 
agctgcgtga 
ggaggtaata 
tgaagggctg 
ggtaaatcac 
gattcaatgt 



aatagtgtta 
ggtgactttt 
gataatacta 
gctgggggta 
t tctcctgcc 
aatttttttg 
ctcctgacct 
ccaccgtgcc 
tcgctgatca 
cagtcagggc 
tacagattcc 
agaatctgtc 
gtgccccaag 
gccattgggg 
ctgaagtttt 
attgtcccca 
tccaccatca 
aacattgcct 
tctggatcct 
ggaccgtggg 
agatgctggc 
tgtcttacta 
atatctcaga 
agaagttagc 
cccaggtcgt 
atggggggtg 
ctgtccaatg 
aacaaattga 
ttcttggcat 
ttcctgagtc 
tgattgaatg 
ccagtaaact 
ggcaagaaag 
ggggttactg 
tacttgccac 
actcagagca 
cccagtttca 
tggccgctgg 
tgtgatttgt 
cctcttgggc 
agtctcggca 
tcctgctacc 
tggctggccc 
acacagtagt 
accatggaga 
ataaagtgta 
gaacaattat 
tccctcaaaa 
aaaatgcctg 
gctgggctgc 
ctaatctttg 
ttaccaaatg 
ggtgggatgg 
gtttatctct 
aaccatagaa 
tagagagcac 
cctcaggtca 
accctggcta 
caccgtctgg 
acaagcactc 
gccacccatt 



ttattgagaa 
actgtgtacc 
ttgttccctc 
cagtggcaca 
tcagcctccc 
tatttttggt 
cgtgatccgc 
cggcctgttc 
ggatcacaat 
ctcccaagtt 
tgggccccac 
ttttagggaa 
aggagtggca 
ttaaggactg 
ggccactctc 
ggggtagcct 
tcccctttgt 
caaattagct 
acgtcctggg 
gtctccactt 
acttcaggga 
gctccatttt 
ccgaggcatc 
gtaagtcagc 
gcagcctggg 
caggtgattc 
tgctttgctt 
ctgacggctg 
tgaggtgagc 
agtctgatct 
cagggacagt 
ctggactagc 
cttttctagg 
agttccacga 
cccagctgtg 
tgcaaggttt 
acaggagtct 
gttggcctgg 
gaggcagtaa 
tgggtttgtg 
agggctactg 
actgcctgat 
atccctgaga 
cctccggtat 
gtatcaagcc 
gtttataaat 
aacaatcaat 
tatcttcttg 
tgtgatggga 
tgttgacctg 
agcaacaatg 
ggagcgtata 
agctggatgg 
agaattttcc 
ggcgaagctg 
aggctctgga 
gcccaatgtc 
cctcacaggc 
■caggggcttt 
agcttgtttc 
tattggggaa 



FCT/FKOl/00935 
gtggtaaggg 19740 
gggtgctcac 19800 
tttttttttt 19860 
atctcggctc 19920 
aagtagctgg 19980 
agcgacaggg 20040 
ccgcctcggc 20100 
cctcttttat 20160 
atccagctga 20220 
tgcctaaaga 20280 
cccgcagata 20340 
gctttcagat 20400 
gacagggctt 20460 
ggcagcaggg 20520 
atccagctgg 20580 
gtctagttca 20640 
gaggctgctg 20100 
ctgtcatttc 20760 
ccatccccat 20820 
ttttggggtg 20880 
tgaatgaaag 20940 
caaatgtatt 21000 
tgcaagctca 21060 
ctgggctgtg 21120 
aagctgtgag 21180 
ctgcccagag 21240 
ctgtgtctcc 21300 
tgcacactcc 21360 
ccaggttttc 21420 
ggtcttggcc 21480 
gtctcatttt 21540 
tctgctgagg 21600 
cccctttcct 21660 
tgcatgttga 21720 
gcagcgagtt 21780 
gcagtccatc 21840 
ctctctctcc 21900 
cttctctctc 21960 
aaaaagacaa 22020 
gatgggagcc 22080 
agatcagaac 22140 
ccctcagact 22200 
agggtgctag 22260 
gtgcaggaga 22320 
ctacacatac 22380 
taggctcagt 22440 
atactataat 22500 
tactgtactc 22560 
ggaagtgagg 22620 
accacacttc 22680 
aggtcggcag 22740 
gagcgtggat 22800 
cacgtgatca 22860' 
atttaatatt 22920 
cggataagca 22980 
gccagactgc 23040 
tgtgtgcctc 23100 
tgtagtgatg 231*60 
atatagtaag 23220 
tccttatgtg 23280 
aagtcctaaa 23340 
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aggggaagtg gggaagggag ctgggggagg ctgggaggtg tgtccctgag tgaaggagag 23400 
agggsaggaa ggaaggttga gactgggcac cttggacttc agtgcagtcc taagacatct 23460 
tggcaaggct gatgaggagt tcttgaacca aattcaccag gcaggggagc ctgatgtctc 23520 
aggcaggggc tggcaagtgc agatgcgagg atgttagatt ttggagcaca_ gcagctgggg 23580 
cccttggcta cctccaagga gctgaggctg gagacctgaa aggcgagttc tcctagctgc 23640 
cacacccctt ctccaaggat acaataatat ctgccttata ggattgttgt gagctgagtg 23700 
gcttgacgtt ccttgaaaga atgaaagcgt atagttatcc caggaagcct agggttgcag 23760 
gtgagagctc tggggcttct ccgaagctct ccgaggtgtc tggattcagt tgcagcagga 23820 
gccttccttg ctgggatctt cccccacccc tagccttggc cctccctctc tccttccttt 23S80 
ctggaaggct cagtgggccc cacccctccc tccagccacc tggacctgcc cagcgctctt 23940 
gtgcaacagg taaagcctac ctgtagcaac • aacagatctg ggaaggctgc agagggcacg 24000 
atggggtctg gatcgagggc ggctgagacc agagggaaag gtgtgaccct gagtcaccct 24060 
cgctgtcccg gggaaaccac ctcccaggac agctgcctac tgtggctcct gcctggaatt 24120 
gtcacactgc tgtgcaaaca gcgtcccgct gcccctttcc ctttgctggg ggaaaatgaa 24180 
gttgtgggag ccgctgagta aactagacct agcagcgagg gcacctgatg tggctgctgc 24240 
ctcccgggca ggtcttcaat gctttcttcc .tgtgtttccc tggccagggc acagacggcc 24300 
ctccttttct gcctgccgct gtgttctctc agcctcctct gtcttccctt ccaggctggg 24360 
gaataactac atcactgccg cgggagccca agtgctggcc gaggggctcc gaggcaacac 24420 
ctccttgcag ttcctggggt aggttggatt ccaggaagag ggacctgcat ggaggggctt 24480 
gggacttttg aggatttagg ggcaggtgaa actcttcagc caggaggccc cagaggcagc 24540 
ccagctccag tggggaggac aagccaggga gagagtgggc ggcccttgac tgccaccttc 24600 
atacttggtc tatgcctgac aaacaggaag tttgggatgt tggggctagg ggaggacagt 24660 
gcccacgagc tggtgacagg aagccctctg atcctcaggg ggcgctaggg ctgtacttta 24720 
gctgcatatt aaaaccacct ggaagcttct aaacactatt gccaggcctc ccaccccaga 24780 
ctgatgaaat gcaaatatct aggtgcaagg cccaggtatc aggagtttta aaaagcttcc 24840 
caggggatgt acagccaggg gtgaggaccc ctgacctaag aaagagaagg aaatggggaa 24900 
ggataggaag gcacccagga taagaggggc tgtgctaggt ccctcggagc tcttgctccc 24960 
tgtaggacca tgctagggcc tgccagggag gggagtaccc caacctgcag ccccagggtg 25020 
ggcttcctct gtttgctagg cacccaggct tgcacctgtg ctgtttccag cagcctctct 25080 
cctatcctgt catgccctag tgtgaactgg agtccatttg acaagaactg ggagttttag 25140 
aacctgggac tgtaggaaga gagaataacc ttagggccta ggtgttccag cccatttcac 2520Q 
agggaggcaa gttgccccca agctcagttt tttgttttgt tttgttttgt ttgagatgta 25260 
gtctcactct gttgcccagg ctagagtgca gtggcacgat cttggctcac tgcaacctcc 25320 
gcctccttgg ttcaagcgat tcacctgcct cagcttctca agtagctggg attataggca 25380 
cccaccacca cgcccagcta atttttgtat ttttagtaga gacagggttt caccatgttg 25440 
gcccggctgg tcttgaactc ctgatctcag atgatccgcc cgcctcggcc tcccaaagtg 25500 
ctgggattac aqgtgtgagc caccgcaccc ggcccccaag ctcagtttga gccacaaatg 25560 
ggactatgtt gctctagaaa tcaacatctt ttccacactg cattagtagc aacagagtct 25620 
agaacaaagg aggccacagc cccactgaac tctcttctgc ttgaggtcac atctgccaca 25680 
tcaggggtat ttacctcttt caacacatat ttattagggc acctgtctgg gccaggcgtt 25740 
gtgctaaaac ccccaaacgc tgtcatatga tacaaagtgt tctgtaactt gcttggtttt 25800 
tttttttgtt tgtttgtttg ttttgttttg tttttgttgt tgtttttttt tgcttcgcca 25860 
tatattatag gaattttttt aggtcattat gacctcttta tttacttaat tatctattta 25920 
tttattttac taatatttac agaaagggtc tcactctgtc acccaggctg gagtgcagtg 25980 
gttgcaatca tagctcattg tagccttgaa ctcctgagct caagtgatct tcctacctcg 26040 
gcctcctgag tagctgggac tacaggcaca agccaccatg cctggccgat atttttatgt 26100 
tttgtagaga cggggtctca ctatgttgcc caggctggtc tcaaactcct gggctcaggt 26160 
gatcctccct cctttgcctc ccaaagtatt- gggattacac aagtgagcca ccttgctcag 26220 
cctgacctca tttttcaaag agctgcagag tgttacataa tgtatttaac tggtcacttt 26280 
ttgatgacta ttaagttgtt ttcaggtttt ttgttattac • agtgtcatat ccctggggca 26340 
cagagcagtg ctggcacata gccagagctc aatcgataca tacctaatga atgaaagtac 26400 
'agtggacatc ctaattcagc cattctttgc taacttgtgt acatacctgt ccagggtagg 26460 ' 
tccctagaat acagtcaata agtcagaagg tgtgagttgg gatctacctt ttggaaaggg 26520 
atgttttcaa actacagtga gtcagaggag gatggcccag aagctggggg agttgaagct 26580 
gatggcgtga aggaattagg ggtgttagga .agaagcagga gataaagagc tagcttgcag 26640 
aagaagtgtt agacttgtta tgggcaggta ctggagggta gctaaggact tgtgggtggc 26700 
agttaccagg aagcgtatct gaactaagtg tcagaaaaag tgtcacaact gtaaattact 26760 
cttgtcagtg agttcctgtc cttaagggtt agggctgggt agccctctac tattctctaa 26820 
gtctgtaatg fcaaagccact gaaaactctt gggttaagtt tggccatccc acccaaaaga 26880 
tggaggcagg tccactttgc tgggaccagg agceccagtg aggccactct gggattgagt 26940 
ggtcctgccc ctctggctgg . gactgcagag ggaggaggac tgttagttca tgtctagaac 27000 
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acatatcagg tactcactga cactgtctgt tgactctttt ggccttttca gattctgggg 27060 
caacagagtg ggtgacgagg gggcccaggc cctggctgaa gccttgggtg atcaccagag 27120 
cttgaggtgg ctcaggtaag cttcagagtc tatcctgcag ttttcttggg gagatcaggt 27180 
gaagagggag gagctggggc cagttctgaa ggtctttgaa ctttatttct accccacaat 27240 
attaggcaat ggagtaagga aaaaagacca ttggatttca agagaggaca cttgagtctt 27300 
tctgggtqac ttggaaatgt cccttgtcct ctcagggttt tgatacagta tctgtaaatt 27360 
gaagatattg ggctggatca ggtacatttt atcttaaggg ccaattccaa tccattggta 27420 
gtgggtgccc agtgcaccac attaaaaaga attctaaggc tgcacctggg cttaaagaag 27480 
agcactataa tcaattagtg atgtctaaaa aagctaaaaa aaaaaaaaaa gagcactgca 27540 
ttcaattagt gatgtctaaa aagggtagaa aaaaaaaaaa aaagaaaaaa gaaagagcac 27600 
cgcaatcaat tagtgatgtc tgaaatggag cagaccagga gagcaccacg aattttgccc 27660 
tccataggtt agctcatctc tgaggtcttt ccctgctctg acatactttt gttccatgat 27720 
tacctccagc ctggtgggga acaacattgg cagtgtgggt gcccaagcct tggcactgat 27780 
gctggcaaag aacgtcatgc tagaagaact ctggtgagtt tgggggattc tctgctctgg 27840 
ggaagtggat cacaatctct gttgatcccc tggcctcatc cataggagcg gttgtgtgga 27900 
cagacaaagg tggatgattg agtgattgac tgattgattg attgtgtttg tctttatatg 27960 
tactgagtgg tatgaagctt atagagcctg gtatgtacat gctaattttt ttatttaata 28020 
aaatatatgg gtttgctggt ttggtgactg cctccacatg gcataagtgt taagagcaca 28080 
gactctgtaa tcaagcaggc cgtgatctta ggcaagttaa ataacaattt cagaatctca 28140 
agtttcatgt ctgtaaaatg agggtaagaa tacttccaac cataaaggat ttttgcaaga 28200 
attagataaa gtagtgcctg tgaagacctt aatatagtgc ctggcatatt tgtaagtgct 28260 
ccataaatgt taaattagaa taatggcagg gttactacta ctattactgc tgctgctgct 28320 
gctgctgctg ctacaactac tatagtactg tgactactac tactaataaa gttttgttat 28380 
tttaaagtga ttttgagttc ctaggagcac tgggtattca ag.tcttaggt cattttggaa 28440 
ggtgtaatgg agttttgata gttgaaagag gaaccatgaa tcatgcttat actgttgacc 28500 
tgaagcagat tctaagtttc tcatccttta gatgccacta gtatagtttt ctgacatgtt 28560 
ctgggcagct tcagattatg tcagggagat aaaatactga atgtttgatt ttcccgggaa 28620 
gcagaaaggc actgcaacat atgggcattg ccataaacag attttatgga tggaccttgg 28680 
ctqttgcagg gcttactagc tctactcaag tatgattgat tctatcctga ctggattttg 28740 
ccacttggaa tttcttagta gaggagaacc ttgttatgag agcatcagtt atgattactg 28800 
ttaaaagaaa aactttaggc aaattaaatt tagcagaact ggtttgaaca tacagcaatt 28850 
tatgaattgg gcagcattca gaactgggag tgctccaccc agcaaggtag gcaagcagta 28920 
tctatagaca ggaaaaggaa gtgatgtaca aaacagcttg attggttgca gctgggcatt 28980 
tgccttatat gggcatggtg tgatgaggca ttttctttat atggatatag actgatcagc 29040 
tggtagactg tgactgactg aagcctggct gctgtgattg gctaagactt agctgtttgt 29100 
tataaggata tgttgttagg ttgcagtttg ctacatagga actcaaagta cagaggcagt 29160 
ctcaggccaa atttagttta actatatgtt aagctgcagg tgacagaata cctccatcta 29220 
tagaggttta aacaaggaaa gggtttattt tttcctgtat aggcagctgg atgtaggcag 29280 
tgtagggttt gtacagtggc tacaagaggc caggaggggt ctcagctctg tctcattctc 29340 
ttcctgttcc atcatcctta gcctgtaact tcattcacat ggttggttgt ctcatgatca 29400 
caggatggct g.ctccaggtg cagcactact tctgtattcc cggattcgat ctatataccc 29460 
aggaaagcca tctgggttct ctcctttaaa aagcattcct ggaagcccca cctgtcgact 29520 
tccccttatg tatcaaccat gtgtatgtca cttgaccaac ccacttgtat gttgtttgac 29580 
cagccctggc. tgcaatggag agtgggaaat acagtttttt caccaagtgc atggctgtcc 29640 
aaatgaaatg agacttccat taataaggaa gaaaggaaag atggagatca ggaagctggg 29700 
ggatcaggga acttattaca ttgagagccc ttggagtgaa ttctcttgca aatatgtccc 29760 
tggaattgag aatccccaca acgtctttat ctgttctttc tttatccatg agtttgggtt 29820 
ttcagatgtt ggatttccta tatggggggc atgtgagttc atcatcttcc ataatcaatg 29880 
ttgtatcaac tggattttct ctcttcttct caccagcctg gaggagaacc atctccagga 29940 
tgaaggtgta tgttctct.cg cagaaggact gaagaaaaat tcaagtttga aaatcctgaa 30000 
gtaaggaacc cataagcagg aaacaggaca ataattgctg gcctttggaa ggggcatttc 30060 
tgattaagat ctgggccgct ctccgctggg ctaactcatg tgaggtggcc tggtagaaca 30120 
gcttgccttg gtctaggtgg acaaggattc cagt'gcaagt tgtttatctg ggaggtggtc 30180 
ccagtaaatg ctgataggag agtggtgaag tgagatgggg aagtgaaggt aaccaataaa 30240 
ggggagttat caagccagtt atcaatgagg gaaattggag ctcagtactc tggggcactc 30300 
ctggagccag tgcagaacac acatggtcac ctacccaacc. aatgggcaag aaagccatgg 30360 
catttatcca ccaaccctct gtccttccta tgttgatgtg cgctcatggg gcactgattc 30420 
tccagcactt ccagctcacc ctcacccagc tgaacatgct tctggggtca ggagaatggc 30480 
ctcaggcaga gagtggcagg tcttctctgc aagcagtggc tggggaggtg atgtgatggg 30540 
gagtactgtg gcctcctcca gtgg'ctgact cagtggcttg ggacttgtgc cacaaagaga 30600 
tggacagctc aggtgaacat' gaacccacct agtgaccatc atgggtttgt cagggtgctc 30660 



18 



BNSDOCID: <WO 0172822A2J_> 



wo 01/72822 

tctgaggctg atgccaaaat tcttatttca 
ccttttgctg gaggaaagtg gcatctgcct 
ctttagagac agacagacag acagctgcct 
tacccactct ggcgacactc atttgtgttg 
tggagaaaac acttccacta attatttggg 
ccggatgtgt ctgagccaga tgccagcttt 
gcccattatc aaccaggtgt ggatatggca 
ctccacttga ctcccatgga tgccaggcaa 
tcatcagcct tatttttcag catcctaaac 
gatatatctt ttataaaaaa gagaaatgcc 
ccaagagttg gttgagagcc caggcttgct 
cactttggga ggctgaggcg ggtggatcac 
caacatggag aaaccccatc tctactaaaa 
acctgtaatc ccatctactc aggaagctga 
gaggttgcca tgagccaaga tcacaccatt 
catctcaaaa aaaaaaaaaa ggatgagaaa 
ctggaaccag acagcctggg tcttacccct 
atgagtgcct cagttgcctc aagtgtaaat 
catgagcatt cactgagaga atgtagctaa 
aattgtggtt tcagaccatg aactttaaat 
taatcaaaat aggaaccatt aaaatcaaca 
attcctgtag cataaaaatt catgcttcgg 
gcatcctcct ggttgtggaa gcatttttcc 
tggtagtcag ttggctagag gtcaggtaaa 
aattcattca acttttgaag ctttggttgt 
aattggaccc tttctgttga cgaatgccgg 
attgacttgc cgagcatact tctcatatgt 
ggggatcaga ctagcagcag accaccagtg 
gcctttggga agtgctttgg agcttcttct 
ttgtataaaa tccacttttc atcgcacgtc 
ttgtgtagaa taagagaaga tgacacttca 
tcatgaggca cacacttatc gaggtttttc 
accatggaat ggtcgatgtt gagttctcaa 
gctctcaatt ggtcattgtc agcttctgat 
ctcttatctc cttcgcaaaa cttcttgaac 
cctgggccaa atgcattgct gatgttgtga 
aattcaaata agaaaattgc ttgaatttgc 
aataaatata aaataaacag aaagtattaa 
tgtgcattaa aatgatgtat agcataacca 
atggcaaatt tcaacaatgc aaaaactgca 
aataaatact ggcaattaca attggcattg 
aattgtggga aagggggagg acctggagtg 
aagagcaacc tgggaaacac atgactcctc 
cctccctgtt gtcagctacc tcatatgttc 
ccccctgaaa atagaaatat tactgctcat 
tagtccgttt tcatgctgat gataaagata 
gagttttatt gaacttacag ttccacgtgg 
tgaaaggcac atctcacatg gcagcagaca 
ctttttaaaa ccatcagata tcatgaaact 
caattacctt ccactgggtc gctcccacaa 
acacagccaa accatatcaa gtactgtgca 
cttcccagca agcagagtgt * ggggaggtaa 
ggacccatgc cacaaggaga tggatggtgg 
caatttagat tcttatgctc gatggcacgg 
gagattggga ctaatttgct cgagatcaaa 
agga'tgtcta gcactaaaat gcaggtactt 
tttgataaac -tcatctagtg aatggaagag 
cctttgttga tgagctcatt gggaatctca 
•tgggcttcag tagactggct aactcctgca 
aaccaagaat ccttgaagct caccattgta 
tcacctacct aggggcagaa gccctcctgc 
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agtagacctc aggaacccca tcagatggct 30720 
aggcaaatgt ggtcctagga aaacgcttgc 30780 
ctgtgagtgc cagctttgct gccaggctgc 30840 
ctttcacaag ctaggaagtt tccaaatatt 30900 
tggaaatggg ctgggaagtt ggggtgaagc 30960 
qcactgaggg tcggcctttg ggaataccaa 31020 
ggtttgtctt ccctccttgt cacagcctta 31080 
tgaggctggg gttggtccca tgccaccctg 31140 
tatatcatcc cccacaaaaa ttgaacttct 31200 
tacatctttc ttttccagga ttagtttctg 31250 
gggtgcagtg gctcacacct gtaatcccag 31320 
ctgaggtggg gagttccata ccagcctgac 31380. 
atacaaaatt agccgggcgt ggtggcatac 31440 
ggcaggagaa tcacttgaac ctgggaggtg 31500 
gcaccctaga ctggacaaga gagaaacttc 31560 
aataataatt taaaaaaaag agtccaggct 31620 
gctccaccat taccagccag ttcttcttgg 31680 
ggagataatg gctggacctt cattataggc 31740 
caaaagtgag ttgtaggttg gagcaaaagt 31800 
tattataact aggctaaaat acatctttat 31860 
catttttgcc aataagaaat aagtttgttt 31920 
gattcaacaa actcttggaa agcattttct 31980 
tgcagaaagt tgtcaagatt cttgaagaaa 32040 
tatggcggat gaggcaaaac ttcatagtcc 32100 
gtgacatgca gtccggttgt tgtcgcggag 32160 
ttgcaggtgt tgcagttttc agtgcatctc 32220 
aatggtttcg cagggattca gaaagctgta 32280 
accatgacct tttttttttg gtgcgaattt 32340 
cggtccaacc actgagctag tcattgccag 32400 
acaatcagat caagaaatgg ttcgctgttg 32460 
aaatgacgat tttcttggtt ttcactcagc 32520 
acctttccaa tttgcttcaa atgctgaatg 32580 
gtagttgtaa gaaaatcagc tttgatgatt 32640 
ggcctgccag tacactcctc atcttcaagg 32700 
caccactgca ctatacgtta gttagcagtt 32760 
gttgtctccg ctgctttaca acccattttg 32820 
tttttgtcta acatcatttt catagtctaa 32880 
gtcattagca aaaaatcata aagtgagaat 32940 
catttattta agaatgtatt ccaatatcaa 33000 
attacttttg caccaatcta atagaagttc 33060 
ccttagggtc aacttgtaag acattcctga 33120 
gacattattg gaaggcaaag ctgtaaccaa 33180 
tgttgctgtc cctggcccta tcctgtctcc 33240 
tctaatctct gtctctgtgc cctcaaagac 33300 
tggttatttt ctatcaatta agtactgtat 33360 
tacccaagac tgggcacttt atgaaagaaa 33420 
ctggggaggt ctcacaatca tggctgaagg 33480 
ggagaagagg gcttgttcag ggaaactccc 33540 
tatttactgt aatgagaaca ggatgggatt 33600 
cacgtgggaa ttcaagagat ttgggtgggg 33660 
agtgttttag gcatgcagag agtggtgggt 33720 
tgggggactg gtggctgact taatggccca 33780 
atgtgaatag gagcctgctt acacccatca 33840 
gtactctttt aggcccattt taccaatgag 33900 
aaagaagtgg tgtaggtggg atttaaaccc. 33960 
aaccactatc ctaagggagt ggctacttaa 34020 
agacggttac atttcactga tggtactgag 34080 
gacatgagca ggatgtgtct aagggacagg 34140 
gtctctttaa ctggacagtt t-caagaggaa 34200 
tcttcttttc- caggttgtcc aataactgca 34260 
aggcccttga aaggaatgaC accatcctgg 34320 
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aagtctggta aggcccctgg gcaggcctgt tttagctctc cgaacctcag tttttctatc 34380 
tgtaaaatgg ggtgacggga gagaggaatg gcagaatttt gaggatccct tctgattctg 34440 
acattcagtg agaatgattc tgcatgtgaa ggatctgatt ctctgtctaa gaaagaagtc 34500 
tttacctctt taagtaggga gcaatgattt catttttaaa ccttgactat ttattcagca 34560 
acttctctgc tctatgagat agtgtaggaa tggggatgtg gttgaagaat gaaaagaaaa 34620 
gtcagctccc gccctcctag aaattgcatc tgccttcaca ggtcaaggat attggatcag 34680 
accttctgcg gttctgaatg gagattacac aggttaggag caggttgcac agtgtttcca 34740 
attctctata attaaagcca tagactttca tgtattgaaa aaagcaagaa ttgcattctt 34800 
gacagattct ttcattgcct taaaaagaat^gactagcctt gggagtctgg gcagctgggt 34860 
ccagtgttgt agactttctc tctgctgagc cacagcttca aagatttgtc cttcttgttt 34920 
ccagggatct atttctcaga caataagtaa aggctttccc tggcctaatg tgctgtaagt 34980 
gaatgctact atatatgttc caggcactgg gctagagact aatatttaaa agccaggaaa 35040 
tttcctatag aaaatctata tctcagggtt ttctcaaaag agctgggaac tctggatgcc 35100 
cattcatgat tccagtagtt aaccagagta caagaagggc tgagtcttct cagatgggca 35160 
aacccactct ggctgactgc agatccacca agcctattgt cttagaccag gaccctttgg 35220 
caactcattc ccataagcct gtgacccttg ctttaaatat gcaggccttg tcttctctca 35280 
aaaagcacat caaggctgca gcgaatgcag atatcaaatg atgaagttaa aaacaaaagc 35340 
tttgctgggc gtggcagctc acacctgtaa tcctagcact ttgggaggct gaggcaggag 35400 
gatcacttta ggccagaggt tcaacaccag accttgtctc tcaaaaaata aaaaattcag 35460 
ctgggtgcgg tgtagttcct agccacttgg gaggctggga tggaaggatc ccttgaaccc 35520 
aggagttcaa ggctgcagtg ggccatgatt gcatcactgc acaggcgaca gaattagatc 35580 
ccatctctta aaaaaataaa aaatttaaaa gtgacttcaa aaatctatgc tgtgatggag 35640 
agatttttcc ttctgtatga ttgtgatagc tctgtggcct atgacgtcat caggttctgg 35700 
gcaaagtgta ggttttctgt ttctttgttt ttgaaaccat tgcacagtcc taagaaacat 35760 
cacattctgg gtcctgggca ccagccaaca tgaggtgagg gcaccagggt ttgctcattg 35820 
cattcttgac agattctctt attgccttaa aaagaatcac tggccttggg gagtctgtgg 35880 
ctggctgggt gcagtgttgt ggactctctc tgcagagtca tggagccttg ttcagaatgc 35940 
ttcctgagct gccctggttg gccaagggta aaaacagccc tgacttccct gcaagaaaca 36000 
ctgcagctgg gccagagagt cagcccatcc caggcatggg ' tttaaaaagt ggaggctttt 36060 
gtttgaaagc cctgctctaa ttttgtcctc actcaaacct ctgttcactt gatctgcttt 35120 
aggctccgag ggaacacttt ctctctagag gaggttgaca agctcggctg cagggacacc 36180 
agactcttgc tttgaagtct ccgggaggat gttcgtctca gtttgtttgt gagcaggctg 36240 
tgagtttggg ccccagaggc tgggtgacat gtgttggcag cctcttcaaa atgagccctg 36300 
tcctgcctaa ggctgaactt gttttctggg aacaccatag gtcaccttta ttctggcaga 36360 
ggagggagca tcagtgccct ccaggataga cttttcccaa gcctactttt ; gccattgact 36420 
tcttcccaag attcaatccc aggatgtaca aggacagccc ctcctccata gtatgggact 36480 
ggcctctgct gatcctccca ggcttccgtg tgggtcagtg gggcccatgg atgtgcttgt 36540 
taactgagtg ccttttggtg gagaggcccg gcctctcaca aaagacccct taccactgct 36600 
ctgatgaaga ggagtacaca gaacacataa ttcaggaagc agctttcccc atgtctcgac 36660 
tcatccatcc aggccattcc ccgtctctgg ttcctcccct cctcctggac tcctgcacac 36720 
gctccttcct ctgaggctga aattcagaat attagtgacc tcagctttga tatttcactt 36780 
acagcacccc caaccctggc acccagggtg ggaagggcta caccttagcc tgccctcctt 36840 
tccggtgttt aagacatttt tggaagggga cacgtgacag ccgtttgttc cccaagacat 36900 
tctaggtttg caagaaaaat atgaccacac tccagctggg atcacatgtg gacttttatt 36960 
tccagtgaaa tcagttactc ttcagttaag cctttggaaa cagctcgact ttaaaaagct 37020 
ccaaatgcag ctttaaaaaa ttaatctggg ccagaatttc aaacggcctc actaggcttc 37080 
tggttgatgc ctgtgaactg aactctgaca acagacttct gaaatagacc cacaagaggc 37140 
agttccattt catttgtgcc agaatgcttt aggatgtaca gttatggatt gaaagtttac 37200 
aggaaaaaaa attaggccgt tccttcaaag caaatgtctt cctggattat tcaaaatgat 37260 
gtatgttgaa gcctttgtaa attgtcagat gctgtgcaaa tgttattatt ttaaacatta 37320 
tgatgtgtga aaactggtfa atatttatag gtcactttgt tttactgtct taagtttata '37.380 
ctcttataga caacatggcc gtgaacttta tgctgtaaat aatcagaggg gaataaactg 37440 
ttg 37443 



<210> 4 

<211> 1315 

<212> ADN 

<213> Homo sapiens 
<220> 
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<400> 4 

cgatcagaag caogtcacac agcctgtttc ctgttttcaa acggggaact tagaaagtgg 60 

cagcccctcg gcttgtcgcc ggagctgaga accaagagct cgaaggggcc atatga cac 119 

His 
1 

tec tec egg acc cct gga cac aca cag ccc tgg aga ctg gag cat tgg 167 
Ser Ser Arg Thr Pro Gly His Thr Gin Pro Trp Arg Leu Glu Pro Trp 
5 10 15 

age atg gca agt oca gag cac cct ggg age cct ggc tgc atg gga ccc 215 
Ser Met Ala Ser Pro Glu His Pro Gly Ser Pro Gly Cys Met Gly Pro 
20 25 30 

ata acc cag tgc acg gca agg acc cag cag gaa gca cca gcc act ggc 253 
He Thr Gin Cys Thr Ala Arg Thr Gin Gin Glu Ala Pro Ala Thr Gly 
35 40 45 

ccc gac etc ccg cac cca gga cct gac ggg cac tta gac aca cac agt 311 
Pro Asp Leu Pro His Pro Gly Pro Asp Gly His Leu Asp Thr His Ser 
50 55 60 65 

ggc ctg age tec aac tec age atg ace acg egg gag ctt cag cag tac 359 
Gly Leu Ser Ser Asn Ser Ser Met Thr Thr Arg Glu Leu Gin Gin Tyr 
70 75 80 

tgg cag aac cag aaa tgc cgc tgg aag cac gte aaa ctg etc ttt gag 407 
Trp Gin Asn Gin Lys Cys Arg Trp Lys His Val Lys Leu Leu Phe Glu 
85 90 95 

att get tea get cgc ate gag gag aga aaa gtc tct aag ttt gtg gtg 455 
He Ala Ser Ala Arg He Glu Glu Arg Lys Val Ser Lys Phe Val Val 
100 105 110 

tac caa ate ate gte ate cag act ggg age ttt gac aac aac aag gcc 503 
Tyr Gin He He Val He Gin Thr Gly Ser Phe Asp Asn Asn Lys Ala 
115 120 125 

gtc ctg gaa egg cgc tat tec gac ttc gcg aag etc cag aaa gcg ctg 551 
Val Leu Glu Arg Arg Tyr Ser Asp Phe Ala Lys Leu Gin Lys Ala Leu 
130 135 140 145 

ctg aag acg ttc agg gag gag ate gaa gac gtg gag ttt ccc agg aag 599 
Leu Lys Thr Phe Arg Glu Glu He Glu Asp Val Glu Phe Pro Arg Lys 
150 ^ 155 160 

cac ctg act ggg aac ttc get gag gag atg ate tgt gag cgt- egg .cgc 647 
His Leu Thr Gly A3n Phe Ala Glu Glu Met He Cys Glu Arg Arg Arg ■ 
165 170 175 

gee ctg cag gag tac ctg ggc .ctg etc tac gee ate cgc tgc gtg cgc 695 
Ala Leu Gin Glu Tyr Leu Gly Leu Leu Tyr Ala' He Arg Cys Val Arg 
180 185 ' ' 190 

cgc tec egg gag ttc ctg gae ttc etc acg egg ccg gag ctg cgc gag 743 
Arg. Ser Arg Glu Phe Leu Asp Phe Leu Thr Arg Pro Glu Leu, Arg Glu 
195 200 205 
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get ttc ggc tgc ctg egg gcc ggc cag tac ccg cgc gcc ctg gag ctg 791 
Ala Phe Gly Cys Leu Arg Ala Gly Gin Tyr Pro Arg Ala Leu Glu Leu 
210 215 220 . 225 

ctg ctg cgc gtg ctg ccg ctg cag gag aag etc acc gcc cac tgc cct 839 
Leu Leu Arg Val Leu Pro Leu Gin Glu Lys Leu Thr Ala His Cys Pro 
230 235 240 

gcg gcc gcc gtc ccg gcc ctg tgc gcc gtg ctg ctg tgc cac cgc gac 887 
Ala Ala Ala Val Pro Ala Leu Cys Ala Val Leu Leu Cys His Arg Asp 
245 250 255 

etc gac cgc ccc gcc gag gcc ttc gcg gcc gga gag agg gcc ctg cag 935 
Leu Asp Arg Pro Ala Glu Ala Phe Ala Ala Gly Glu Arg Ala Leu Gin 
260 265 270 

cgc ctg cag gcc egg gag ggc cat cgc tac tat gcg cct ctg ctg gac 983 
Arg Leu Gin Ala Arg Glu Gly His Arg Tyr Tyr Ala Pro Leu Leu Asp 
275 280 285 

gcc atg gtc cgc ctg gcc tac gcg ctg ggc aag gac ttc gtg act ctg 1031 
Ala Met Val Arg Leu Ala Tyr Ala Leu Gly Lys Asp Phe Val Thr Leu 
290 295 300 ' 305 

cag gag agg ctg gag gag age cag etc egg agg ccc acg ccc cga ggc 1079 
Gin Glu Arg Leu Glu Glu Ser Gin Leu Arg Arg Pro Thr Pro Arg Gly 
310 315 320 

ate acc ctg aag gag etc act gtg cga gaa tac ctg cac tgagccggce 1128 
He Thr Leu Lys Glu Leu Thr Val Arg Glu Tyr Leu His 
325 ' 330 

tgggaccccg cagggacgct ggagatttgg ggtcaccatg gctcacagtg ggctgtttgg 1188 

ggjttettttt ttttattttt ccttttcttt tttgttattt gagacagtct tgctctgtca 1248 

cccagactga agtgcagtgg ctcaattatg tcteaetgca gcctcaaact cctgggcaca 1308 

agcaatc 1315 



<210> 5 
<211> 334 
<212> PRT 

<213> Homo sapiens 
. <400> 5 

His Ser Ser Arg Thr Pro Gly His Thr Gin Pro Trp Arg Leu Glu Pro 
1 -5 10 15 

Trp Ser Met Ala Ser Pro Glu .His Pro Gly Ser Pro Gly Cys Met Gly 
20 25 30 

Pro He Thr. Gin Cys Thr Ala Arg Thr Gin Gin Glu Ala Pro Ala Thr 
35 40 45 

Gly Pro Asp Leu Pro His Fro Gly Pro-Asp Gly His Leu Asp Thr His 
50 55 60 

Ser' Gly Leu Ser Ser Asn Ser Ser Met Thr Thr. Arg Glu Leu Gin Gin 
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PCT/FROl/00935 
80 



Tyr Trp Gin Asn Gin Lys Cys Arg Trp Lys His Val Lys Leu Leu Phe 
85 "so 95 

Glu lie Ala Ser Ala Arg lie Glu Glu Arg Lys Val Ser Lys Phe Val 
100 105 110 

Val Tyr Gin lie lie Val lie Gin Thr Gly Ser Phe Asp Asn Asn Lys 
115 120 125 

Ala Val Leu Glu Arg Arg Tyr Ser Asp Phe Ala Lys Leu Gin Lys Ala 
130 135 140 

Leu Leu Lys Thr Phe Arg Glu Glu lie Glu Asp Val Glu Phe Pro Arg 
145 150 155 160 

Lys His Leu Thr Gly Asn Phe Ala Glu Glu Met lie Cys Glu A^g Arg 
165 170 175 

Arg Ala Leu Gin Glu Tyr Leu Gly Leu Leu Tyr Ala lie Arg Cys Val 
180 185 190 

Arg Arg Ser Arg Glu Phe Leu Asp Phe Leu Thr Arg Pro Glu Leu Arg 
195 200 205 

Glu Ala Phe Gly Cys Leu Arg Ala Gly Gin Tyr Pro Arg Ala Leu Glu 
210 215 220 

Leii Leu Leu Arg Val Leu Pro Leu Gin Glu Lys Leu Thr Ala His Cys 
225 230 ^ 235 240 

Pro Ala Ala Ala Val Pro Ala Leu Cys Ala Val Leu Leu Cys His Arg 
245 250 255 

Asp Leu Asp Arg Pro Ala Glu Ala Phe Ala Ala Gly Glu Arg Ala Leu 
260 265 270 

Gin Arg Leu Gin Ala Arg Glu Gly His Arg Tyr Tyr Ala Pro Leu Leu 
275 280 285 

Asp Ala Met Val Arg Leu Ala Tyr Ala Leu Gly Lys Asp Phe Val Thr 
.290 295 300. 

Leu Gin Glu Arg Leu Glu Glu Ser Gin Leu Arg Arg Pro Thr Pro Arg 
305 310 315 320 



Gly lie Thr Leu Lys Glu Leu Thr Val Arg Glu Tyr Leu His 
325 330 



<210> 6 
<211> 8135 
<212> ADN 

<213> Homo sapiens 
<220> 

<22-l> exon 
-<222> (1) - . (1'61) 
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<220> 

<221> exon 

<222> {3812) . . (3950) 

<220> 

<221> exon 

<222> (5426) . . (5577) 

<220> 

<221> exon 

<222> (7273) . . (8135) 

<400> 6 

cgatcagaag caggtcacac agcctgtttc ctgttttcaa. acggggaact tagaaagtgg 60 
cagcccctcg gcttgtcgcc ggagctgaga accaagagct cgaaggggcc atatgacact 120 
cctcccggac ccctggacac acacagccct ggagactgga ggtcagtatt tgatcccaag IBO 
ctcagctgtc ctctgcctgc tgtggcctga gtccccttct cctggggccc tgcctggcac 240 
ctgctggggg cagggtggga gggggaagag ttagtgacag ccgctgtgtc tggagctctc 300 
cttagcacac tgaggcagag gaagggacag ctcctggacc ttccatcacc tccattcctt 360 
ttgaaatgct aggcgcttgt acaacccatc ttgggcctgg agaataagtc accacacctg 420 
tgtttctcaa aagaacagtg tcagggaacc cctgcctcag cacagcctta gaggactcat 480 
ggaaaatgca gaatccaggc ctgttcaatg gcaccttcct atgttagcag ccaggaaacc 540 
tgctcttgga caagcccctg ggatcccacc cccaccccac caggggattc ttacacacac 600 
tgggttggga gcccctggct ttggcaaggc ttctcaggtg agcgtccagt tgttggaggg 660 
tacccaccct ttccccaaga gaggcagcca cacatccaac atcctgggat ctctgtctcc 720 
cagcgtgggc catgtgcttt atttcacccc ctagaggctc atcccccatg aaaagtcctc 780 
cgcaggccct cagaaagata gtgtggcctc tgtgtgccca gcagaagaag gactggactt 840 
ggcagtcagc tcttggagag ggggtggtta ggacacctgg ggacaggagg aggagaatga 900 
ctgtctgtgc acacacggct ggaaggtaca ggaggctggg aagctgctct gtcccctggg 960 
ccaactacag gcccccaggc caacagcaac aacactttta gtattttgtt ataaagtcaa 1020 
gaaatctttg ctacagaggg tgaggagagg gaaggaaagg gccatggaac cgtctatgtg 1080 
gctatcccca gagagctttt aga^tgacag gattgctttc ccatttcaca gatgaggaaa 1140 
ctgaggcctg gagagggatg ggaagctacc caaggcccca tggatacacc agtgcacaac 1200 
tctttccttc cccctcctct ttaaatgggt gattcccaat gaaacctgta agagacaacc 1260 
ataagggagc tgactgtggc tgctgaattt gattttattc taaggcctgg ttttataatc 1320 
agctttctca gtctttactg gagtgtcaag ccgaggcatc atttctaggg tcttacaggg 1380 
tctctgggcc aatagtgccc tgcttctgac ctggagccag ctgcctggtc atgaaagcag 1440 
atctgcaaag gctggggccc ctgaggccaa ggccactcgc catcacccat tttacagaag 1500 
tgctgagcat aggagtgccc tgggccccca agaatcccag ccaccaagaa tcacgtaaac 1560 
catccactgt ctcacttagg caccagtcag aatgtaggga acccacccct agtcatccat 1620 
catcttatca acaggacggg gcttgtagcc acatttatca ggtagggaaa ctgaagccta 1680 
gagatattaa agcacttgct taaggacaca cggttggtca ggatggaagg cgatgtctcc 1740 
tgactccctg acaggcacaa gagacaagcg agaggtgccc gtgacggcat gctcaagaac 1800 
gtgcagccct gggccagcca ggcccctgct ccgtgcctct gtttgcccat ctgtaaaagg 1860 
tgaggttgga tcgagggtcc ctgagggccg cccactggat ggctgtgcag agccaaacgg 1920 
agaaggcccc agggttcctt tcacccgaca cagcaagcac ttccccctga agtgcaggct 1980 
ccaggcccca gctgacctcc cctctcccag gccagcggct ctcacccctg gagcaaggga 2040 
caggcgctgg ctgtgctcag ggacatgcat gactcccgcc cccatctgtg ctcagggggt 2100 
gccagggagg cactggctct atctttctct aggccgtagt cagcccaggg gttcagacca 2160 
agagcccaga atccaacaga tcagagttca agtcccagct ctacctctat gttccactgg . 2220 
cagcttcctc aggtcatttg caccttcctt gtcttgaatt tccatgccta apcagtatac 2280 
cagctactcc ctccagccga tctaatgttt taattgtccc tttctctaag ttgtctcaaa 2340 
catttgtaat tctattccaa tccaccttaa tttagtcatt tatttcacaa atatttctgg 2400 
aaacatctag cacttaacag acactaaaag cgggggtact a'cacagtccc tgggatggac 2460 
agggccctga gctgaggctt cagagtctgc ctgactgaat cctcacccca gccttgtgaa 2520 
cgtgggttct gttattatcc ccaatttata ggaaacagaa gcacagagaa gttgagtcac 2580 
ttgccagcta ccaggtcatc ccttccactt atccgggtca cagacagagt tattatgtaa '2640 
accagatccc agctgcctgt tctccctccc tgagtaaggt ggagagaatt ctgaagtcag 2700 
cccagcctgg gtctgtatcc tgcccaccac tcaccagctc ctqatctttg gcaactctaa 2760 
gtctcagttc ccttatcata aaagggagat gtaaacagtc ctgagtgcag acagtgttca 2820 
ggttagtgca agagtgtgtg ctgggtgtga agtgcacagc cagcacgtca caagcactgg 2880 
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agacaaattc agctttgctt gttgcgcaca 
tttctcatct gttatgtggt ggtaatgata 
gctatggaga acctagatgg gtatgaagtg 
ategatagat tattgattga ttgatcgata 
aacactcacc tttctttttt tctttttgag 
gcagtggcat catcatagct cactgcagcc 
tctcagcctc ccaagtagct gggaccacag 
tttctagaga cggggtctca ctacattggc 
gatccttcta acccagcctc ccaaagcgct 
cttgaacact gagacttcat tcgcatgtgt 
catctttctt tcaagtaatc actaaagcca 
actctgagca atacgtaagg atcacctcaa 
gtcttctctg ccttggagta acctgcccag 
cagctgggag agtggggaag gttgagccgt 
gagggggcat gacacagctc ctaggcaccc 
ggtcctcact gttctctttt tcctctggca 
tgggagccct ggctgcatgg gacccataac 
accagccact ggccccgacc tcccgcaccc 
ggcttgagac tcggtctggg ggagaggtct 
tttgggggat gcagcaagag gcccgggcag 
cactgagaca cagatctagt gcaagctgtt 
aggggagtgg gaatggaagg aaagggcaag 
ggcacggtag gtggctgaag ctcaacccca 
atctctgggt tgtcctatcc taggggtgag 
ctgcatagga gaagggacgc tcctgggcct 
agccagtggc atgttctgga aaagtgggtg 
gacagcatct gctgtagtgc catctcctgg 
gccctattca atacctgctc tgttcctggc 
ggaagaaatc aaacactgca ctagtcctga 
cagttacacg tgccacgaga aataaataaa 
gaagctctta ctctaatgcc aaggggcatt 
gtagactgga aaagggctgg gacccatgcc 
ttcttaagaa cctcagagtg gcgcagggct 
tttccaggcg tggaaataga gggttggatg 
cccggcatgt gggcagttag atgagaaggt 
ataacatcct cctcactgcc tcccctgccc 
agtcacgaag tcagggctgc agggagcaca 
cagagcaggg atttcaccat ggccaatcta 
gcaccgcatt ccaaagctgt gaaaccactt 
ggtagggtgg attctgccag gctgggcaca 
taaatggcgg ggtgggagag agggatattc 
tcagatagac ccagccatct ccccaagccc 
atccttaagg gtgttgtcct tccagacaca 
accacgcggg agcttcagca gtactggcag 
ctgctctttg agatcgcttc agctcgcatc 
agcagagatt gggaaatggt ggagcctctt 
gtcttgtaga gcctcaggtt tcccaactat 
tcttctggag aaaatggcca aagagcaaga 
aggattcgaa ccatataagt catatttctt 
cccatcttat caggtgtcag tcacctgtgt 
tatctgttct aattattatt acttattttt 
tgaagcacat ttatttcaaa gagaaatacc 
aagcaaaagt aacatactag aaaagtcgat 
tgctgttatt aaattctagc tggttactgt 
gctcctctcp ctgttagaat ggaattttag 
agagccacac ttcatccttc tccttcactf 
cactgaatgc caatggcatg ccgggcacag 
taatcctcac- tgggtgaggt aggcactatg 
agactcggag aggttaaatt actcatctaa 
aattacaacc catgcaatct ggctctggag 
atataattgc ccgtaatcag .gattctcttg 



ctcaccagct gcgtgacttt agacctcagt 2940 
gacttttgtg agcattaaac tagattaggg 3000 
ggtataataa gctatcagtt aattttgctg 3050 
gaagattcat accagtatct , acctgctctg 3120 
atggtcttgt tctgtcaccc agactggagt 3180 
tcagtctctt gggcttaagg gatcctcctg 3240 
gcgtgcatcc tggataattt ttttttattt 3300 
caggctggtc tcaaattcct gggctcaagt 3360 
gggattacag gcatgagtgg ccatgttcaa 3420 
aacataaaac tgagtatcta gacaagccag 3480 
atacttttac ttgaaatcat ctcatttaaa 3540 
taacatatgg atcatcgcaa taggtgaagg 3600 
caaaggggca gacccagatt tgggatctgg 3660 
ggggcccttg tcattccctc tgcctgccag 3720 
caggagccac cgggaacccc aactggagtg 3780 
gccttggagc atggcaagtc cagagcaccc 3840 
ccagtgcacg gcaaggaccc agcaggaagc 3900 
aggacctgac gggcacttag gtgggcttga 3960 
gaagacattc aaagtacaaa tgtgggtcac 4020 
ctcttgtaac ttgggttatc ccaaaacaga 4080 
tatccgggag acggtcctag gagtcatggc 4140 
aggccagggc aggacatcag tgaacagata 4200 
gcgggggtct tctgggagac cctggaacat 4260 
gaagccgggc tgttatctac cagtcctgcc 4320 
gctgctatgg ccctagaaag ccctcaggga 4380 
ccaagagggc acggtccagc ctggggcatg 4440 
aacagatctt ttcttacagt ccttcgagat 4500 
cctatgcagg gcactggaga aacagaaaca 4560 
ggtttggtag agaaacagat cagtgagaaa 4620 
taaaatgaaa aacctgtagg aacaaggtgg 4680 
tgcagtgatg tgggggctgg gtcttgaagg 4740 
ctttgcaata aaatgcacaa ttatttgtgc 4800 
caagtggggt ttaagaaaca ctgtgttcgt 4860 
caaggcagag cagtgcacgt ccgagaagag 4920 
taggaagggc cagcccgctg aggctggaac 4980 
actgatgtgt gctcaaggag tcgtggcaac 5040 
gaaacacaca agccaccgtc tctgcttgtc 5100 
cagaccagaa gtggacgatg caaagtgccc 5160 
gggggtgatg ggctatttgg gattgtcggt 5220 
gaggtctgtc tgatgcccca attgggccta 5280 
aatactcttc aggagttctg atatgccatc 5340 
atgcctcgga agtgcactga cagggtgcag 5400 
cacagtggcc tgagctccaa ctccagcatg 54 60 
aaccagaaat gccgctggaa gcacgtcaaa 5520 
gaggagagaa aagtctctaa gtttgtggta 5580 
tcactctgct tccttcctgg ccctgaataa 5640 
gaaatgggtc aacacactaa ctcacagctt 5700 
tttcaggctc agcacctgct agggtctgtg 5760 
ggtcccaaga aggaaatagc ccagtttaat 5820 
cctttcttca ccaattttgc catatcactg 5880 
ttctttaaat tggatcactt tttaaaaaca 5940 
ttaaatggaa aaccaatatc acatggcaca 6000 
acaaggaaag tcaatacaag gaaagctatg 5060 
ggcttcggga aagccctgtg cctgggagct 6120 
cttgtgttaa gggatgttaa agattgccta 6180 
acctgggacc gggataaata acatagctac 6240 
ctccatgtgg tttcagtgca ttaactcatt 6300 
cctatccttg ttttatgaat gaga.aaagtg 6360 
aaccacacag ctagaccatg gtagggctat 6420 
tcagatgcat gggttataat tgcccttaat 6480 
aaagatgatt gaaaaggatt gattttctta 6540 
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ccatataacg gcatcaccag tgtacctaaa tgatgttata ttgtacgtaa aactaattcc 6600 
caagtgtgaa acatttggaa aacacagcat ctcagttcag aaaacagagg cccagtttta 6660 
gcaagtaaag ccaagaggga ccccagcagc ctgcagggca ggaccctctg ccctttctcc 6720 
tcccagatgt ccccaccttg ctgtgttgtt gttccagggt tgactcagct gatgccaata 6780 
gcaatttaaa acagaattgg gccaggtgca gtggctcatg cctgtaatcc cagcactttg 6840 
ggaggcccag gtaggaggat cgcttgagcc caggagttgg agaccagcct gggcaacaca 6900 
gccagacccc atcttttaaa aagaatcaaa aaatctgcca ggtagtgggt gtgcctgtag 6960 
tcccagctac tcaggaggct caggtgggca ggtcaattga gcccataagt tcaaggttgc 7020 
agtgaggtat gatcgcatca ctgtactcca gcctgggtaa cagtgcgaga ccctgtctct 7080 
aaaaataaat aaataaataa ataaataaat aaataaacaa acaaacaaac aaacaaacaa 7140 
tcaattgcat ataaggatcg cccgttttca gggcatgctt tacaccggcc tggttaactt 7200 
tactctgggt gtgctccgtc cgccgcagcc cccgccggga ggtggccaca gctctctctg 7260 
gttgcgccct aggtgtacca aatcatcgtc atccagactg ggagctttga caacaacaag 7320 
gccgtcctgg aacggcgcta ttccgacttc gcgaagctcc agaaagcgct gctgaagacg 7380 
ttcagggagg agatcgaaga cgtggagttt cccaggaagc acctgactgg gaacttcgct 7440 
gaggagatga tctgtgagcg tcggcgcgcc ctgcaggagt acctgggcct gctctacgcc- 7500 
atccgctgcg tgcgccgctc ccgggagttc ctggacttcc tcacgcggcc ggagctgcgc 7560 
gaggctttcg gctgcctgcg ggccggccag tacccgcgcg ccctggagct gctgctgcgc 7620 
gtgctgccgc tgcaggagaa gctcaccgcc cactgccctg cggccgccgt cccggccctg 7680 
tgcgccgtgc tgctgtgcca ccgcgacctc gaccgccccg ccgaggcctt cgcggccgga 7740 
gagagggccc tgcagcgcct gcaggcccgg gagggccatc gctactatgc gcctctgctg 7800 
gacgccatgg tccgcctggc ctacgcgctg ggcaaggact tcgtgactct gcaggagagg 7860 
ctggaggaga gccagctccg gaggcccacg ccccgaggca tcaccctgaa ggagctcact 7920 
gtgcgagaat acctgcactg agccggcctg ggaccccgca gggacgctgg agatttgggg 7980 
tcaccatggc tcacagtggg ctgtttgggg ttcttttttt ttatttttcc ttttcttttt 8040 
tgttatttga gacagtcttg ctctgtcacc cagactgaag tgcagtggct caattatgtc 8100 
tcactgcagc ctcaaactcc tgggcacaag caatc 8135 



<210> 7 
<211> 16 
<212> ADN 

<213> Homo sapiens 
<400> 7 

ctgggtgcga ttgctc 16 



<210> 8 
<211> 16 
<212> ADN 

<213> Homo sapiens 
<400> 8 

ccaggcccca tgacag 16 



<210> 9 

<211> 25 

■<212> ADN 

<213*> Homo sapiens 

<400> 9 

tggtcccggc ccaatcccaa tgctt 25 



<210> 10 
<211> 28 
<212> ADN 

<213> Homo sapiens 
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<400> 10 

ttcctcatgt ataaattggg tgtggcca 



2S 



<210> 11 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 11 

acagagtgag gaccccatct ctatc 25 



<210> 12 
<211> 25 
<212> ADN 

<213> Homo sapiens 



<210> 13 
<211> 22 
<212> ADN 

<213> Homo sapiens 
<400> 13 

agtccccgag accagggcaa ac / ' 22 

<210> 14 
<211> 23 
<212> ADN 

<213> Homo sapiens 



<210> 15 

<211> 20 

<212> ADN 

<213> Homo sapiens 

<400> 15 

ctctccccat agaaggcatc 20 

<210> 16 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 12 

tccaactgct gggattacag gcaca 



25 



<400> 14 



tccatttctg cagtacacat gca 



23 



<400> 16 

ggatagagac gttctcttaa 



20 



<2-10> 17 
<211> 20 
<212> ADN 
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<400> 17 

caggctgaat gacagaacaa 



20 



<210> 18 

<211> 20 

<212> ADN 

<213> Komo sapiens 

<400> 18 

attgaaaaca actccgtcca 20 

<210> 19 

<211> 25 

<212> ADN 

<213> Homo sapiens 



<21'0> 20 

<211> 21 

<212> ADN 

<213> Homo sapiens 

<400> 20 

ggctcagttc ctaaccagtt c 21 

<210> 21 

<211> 20 

<212> ADN 

<213> Homo sapiens 



<210> 22 
<211> 20 
<212> ADN 

,<213> Homo sapiens 
<400> 22 

tgaatcttac atcccatccc 20 

<210> 23 ' 
<211> 17 
<2i2> ADN 

<213> Homo sapiens 



<400> 19 

atactcactt ttagacagtt caggg 



25 



<4 0 0> 21 

agtcagtctg tccagaggtg 



20 



<400> 23 

gatcttccca aagcgcc 



17 



<210> 24 



28 



BNSDOCID: <W0 0172822A2J_> 



wo 01/72822 



PCT/FRO 1/00935 



<211> 17 

<212> ADN 

<213> Komo sapiens 



<400> 24 

tcccgtcagc caagcta 



17 



<210> 25 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 25 

aagcttgtat ctttctcagg 20 

<210> 26 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 27 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 27 

cctccataat catgtgagcc 20 

<210> 28 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 29 

<211> 20 

<212> ADN 

<213> Homo sapiens 

<400> 29 

ggatgcctgc tctaaatacc 20 

<210> 30 

<211> 19 

<212> ADN • 

<213> Homo sapiens 



<400> 26 



atctaccttg gctgtcattg 



20 



<400> 28 



aatctcccca actcaagacc 



20 



<400> 30 

cccaggggtc aaacttaat ■ 



1.9 • 
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<210> 31 
<211> 21 
<212> ADN 

<213> Homo sapiens 



<400> 31 

ggtttgaaag tatctccagg g 



21 



<210> 32 
<211> 21 
<212> ADN 

<213> Homo sapiens 



<400> '32 

ggtttgaaag tatctccagg g 



21 



<210> 33 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 33 

gtgcatgtgt tcgtatcaac 



20 



<210> 34 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 34 

tcatctccaa aggagtttct 



20 



<210> 35 
<211> 18 
<212> ADN 

<213> Homo sapiens 



<400> 35 

aaagccaacc ttgcttca 



18 



<210> 36 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 36 

tcttggaaac aggtaagtgc 



20 



<210> 37 
<211> 18 
<212> ADN 
<213> Homo 



sapiens 



<400> 37 
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<210> 38 
<211> 17 
<212> ADN 

<213> Homo sapiens 
<400> 38 

gtgctatgcc atcccag 17 



<210> 39 
<211> 20 
<212> ADN 

<213> Homo sapiens, 
<400> 39 

ccacaccagc gtttttctaa 20 



<210> 


40 




<211> 


24 




<212> 


ADN 




<213> 


Homo 


sapiens 


<400> 


40 




cacactttac 


acacacctat 


<210> 


41 




<211> 


22 




<212> 


ADN 




<213> 


Homo 


sapiens 


<400> 


41 





24 



aagccatatt aggtctgtcc at 22 



<210> 42 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 42 

gcttgggtta aatgcgtgt 19 



<210> 43 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 43 

agcagtttgg gtaaacattg 20 



<210> 44 
<211> 20 
■<212> ADN 
<213> Homo sapiens 
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<400> 44 

aaatatgcct tctggaggtg 



20 



<210> 45 
<211> 20 
<212> ABN 

<213> Homo sapiens 
<400> 45 

ggaggatcag gggagtttat 20 

<210> 46 

<211> 24 

<212> ADN 

<213> Homo sapiens 



<210> 47 
<211> 23 
<212> ADN 

<213> Homo sapiens 
<400> 47 

ccaactctgt agtttcaaag age 23 

<210> 48 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 49 

<211> 25 ■ 
<212> ADN 

<213> Homo sapiens 
<400> 49 

gacagcctca aatgaaatat aacac 25 

<210> 50 
<211> 25 
<212> ADN 

<213> Homo sapiens 



<400> 46 

caaagtaaat gaatgtctac tgcc 



24 



<400> 48 

tcacagccta cttgcttggt 



20 



<400> 50 

gctctcagct agggtagttg tttat 



25 



<210> 51 
<211> 25 
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<212> ADN 

<213> Komo sapiens 



<400> 51 

atttttaagg aatgtaaagn acaca 



25 



<210> 52 
<211> 20 
<212> ADN 



<213> Homo sapiens 



<400> 52 

gaccaggagt cagtaaaagg 



20 



<210> 53 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 53 

gtccaaaaca ccaccctcta 20 

<210> 54 
<211> 24 
<212> ADN 

<213> Homo sapiens 



<210> 55 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 55 

tcctctgggg gattcactc • 19 

<210> 56 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 57 
<211> 25 
<212> ADN 

<213> Homo sapiens 
<400> 57 

caggaaaata aatctaacac acata 25 



<400> 54 

gaagtagatc agtcatcttg ctgc 



24 



<400> 56 



gggacatcac caagcacaag 



20 
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<210> 58 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 58 

cctgtgggca ctgataaata 20 



<210> 59 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 59 

cccagccccc atctcaccg 19 



<210> 60 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 60 

cccagccccc atctcacca 19 



<210> 61 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 61 

ctgcggagga ggctgctgg 19 



<210> 62 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 62 

tcactcccac caccctttc 19 



<210> 63 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 63 

agaagtttag tgtggcgtgg 20 



<210> 64 
<211> 17 
<212> ADN 

<213> Homo sapiens 
<400> 64 

gccatctccc caagccc 17 
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<210> 65 

<211> 18 

<212> ADN 

<213> Homo sapiens 

<400> 65 ' 

tcgatgcgag ctgaagcg 18 

<210> 66 
<211> 18 
<212> ADN 

<213> Homo sapiens 



<210> 67 

<211> 20 

<212> ADN 

<213> Homo sapiens 

<400> 67 

tgaatgttaa agggctctgg 20 

<210> 68 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<210> 69 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 69 

ttggttctca gctccggca 29 

<210> 70 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<400> 66 



tcgatgcgag ctgaagca 



18 



<400> 68 

ttggttctca gctccggcg 



19 



<400> 70 

agaaaccggg ctggctgtg 



19 



.<210> 71 
<211> 21 
<212> ADN 



<213> Homo sapiens 
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21 



<210> 72 
<211> 18 
<212> ADN 

<213> Homo sapiens 
<400> 72 

tgggctcttc tgcgggga 18 

<210> 73 
<211> 18 
<212> ADN 

<213> Horno sapiens 



<210> 74 
<211> 20 
<212> ADN 

<213> Homo sapiens 

<400> 74 ' 

tgcctcttct tctgccttcc 20 

<210> 75 
<211> 22 
<212> ADN 

<213> Homo sapiens 



<210> 76 

<211> 24 

<212> ADN 

<213> Homo sapiens 

<400> 16 

cctgagctgt acctgaggaa gcgc 24 



<210> 77 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<400> 73 

tgggctcttc tgcggggg 



18 



<400> 75 

cgagctgtac ctgaggaagc gt 



22 



<400> 77 



catcatgagc ccggggtggc 



20 



<210> 78 
<211> 23 
<212> ADN 
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<400> 78 

tttctcttgg cttcctggtg cgt 



23 



<210> 79 

<211> 25 

<212> ADN 

<213> Homo sapiens 

<400> 79 

accttctctt ggcttcctgg tgcgg 25 

<210> 80 
<211> 26 
<212> ADN 

<213> Homo sapiens 



<210> 81 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 81 

atctgagaag gccctgctct 20 

<210> 82 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 83 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 83 

cccacactta gccttgatg 19 



<210> 84 . 
<211> 19 
<212> ADN 

<213> Homo sapiens 



<400> 80 

gccaaaggtg tcgtgccagg gctcca 



26 



<400> 82 

atctgagaag gccctgctcc 



20 



<400> 84 

atgagttagc ccagcggag 



19 



<210> 85 
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Homo sapiens 



<4 
at 



00> 
tga' 



85 

gagcc cttggagtg 



19 



<210> 


86 


<211> 


19 


<212> 


ADN 


<213> 


Homo 


<400> 


86 



tgatttcgta agacaagtg - 19 



<210> 87 
<211> 20 
<212> ADN 

<213> Homo sapiens 



<210> 88 
<211> 19 
<212> ADN 

<213> Homo sapiens 
<400> 88 

agctgagatg tccggatcg ' 19 

<210> 89 
<211> 18 
<212> ADN 

<213> Homo sapiens 



<210> 90 
<211> 20 
<212> ADN 

<213> Homo sapiens 
<400> 90 

gtcctcttaa cttcccttcc 20 



<400> 87 

agcaaattct aggagttatg 



20 



<400> 89 

agctgagatt ccggatca 



18 
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REVENDICATIONS MODIFIEES 
[revues par le Bureau international !e 29 novembre 200 J (29.1 1.01); 
revendicarion orieinale 1 modifiee; autres revendications inchangees (5 pages)] 

1. Acide nucleique purifie ou isole, caracterise en ce qu*il comprend une 
sequence nucleique choisie dans le groupe de sequences suivantes : 

5 a) SEQrDNM,SEQIDhr3, SEQIDNMetSEQIDN^6; 

b) une sequence nucleique presentant un pourcentage d'idenlite 
d'au moins 80 %, apres alignement optimal avec une sequence 
definie en a) ; 

c) une sequence nucleique s'hybridant dans des conditions de forte 
10 stringence avec une sequence nucleique d6finie en a) ; 

d) la sequence complementaire ou la sequence d'ARN 
correspondant a une sequence telle que definie en a), b) ou c). 

2. Acide nucleique purifie ou isole selon la revendication 1, caract6rise en 
15 ce qu'il comprend ou est constitue d'une sequence choisie parmi SEQ DD 1 et 

SEQ ID N*^ 4, la sequence complementaire ou la sequence d'ARN correspondant a 
une de ces sequences. 

3. Acide nucleique purifie ou isole caract6rise en ce qu'il code pour un 
20 polypeptide possedant un fragment continu d'au moins 200 acides amines d'une 

proteine choisie parmi SEQ ID N° 2 et SEQ ID N° 5. 

4. Polypeptide isole caracteris6 en ce qu'il comprend un polypeptide choisi 

parmi : 

25 a) un polypeptide correspondant a SEQ ID N° 2 ou SEQ ID N° 5 ; 

b) un polypeptide variant d*un polypeptide de sequence definie en 
a); 

c) un polypeptide homologue a un polypeptide defini en a) ou b), 
comportant au moins 80 % d'homologie avec ledit polypeptide 

30 de a) ; 



FEUILLE MODIFIEE (ARTICLE 19) 



BNSDOCID: <WO 01 72822A3J A> 



wo 01/072822 



PCT/FROl/00935 



56 

d) un fragment d'au moins 15 acides amines consecutifs d'un 
polypeptide defini en a), b) ou c) ; 

e) un fragment biologiquement actif d'un polypeptide defini en a), 
b) ou c). 

5 

5. Polypeptide selon la revendication 4, caracterise en ce qu'il est cx)nstitue 
d'une sequence choisie panni SEQ ID N° 2, SEQ ID N*^ 5 ou une sequence 
possedant au moins 80 % d'homologie avec Tune de ces sequences apres 
alignement optimal. 

10 

6. Vecteur de clonage et/ou d'expression comprenant un acide nucleique 
selon Tune des revendi cations I a 3 ou codant pour un polypeptide selon Tune des 
revendications 4 et 5. 

15 7. Cellule bote caracterisee en ce qu'elle est transfonnee par un vecteur 

selon la revendication 6. 

8. Animal, excepte Thomme, caracterise en ce quMl comprend une cellule 
selon la revendication 7. 

20 

9. Utilisation d'une sequence d'acide nucleique selon I'une des 
revendications 1 a 3 en tant que sonde ou amorce, pour la detection et/ou 
Tamplification de sequences d'acide nucleique. 

25 10. Utilisation in vitro d'un acide nucleique selon I'une des revendications 1 

a 3 comme oligonucleotide sens ou antisens. 

11. Utilisation d'une sequence d'acide nucleique selon Tune des 
revendications 1 a 3 pour la production d'un polypeptide recombinant. 

30 

12. Precede d'obtention d'un polypeptide recombinant caracterise en ce que 
Ton cultive une cellule selon la revendication 7 dans des conditions permettant 
Texpression dudit polypeptide et que Ton recupere ledit polypeptide recombinant. 
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13. Polypeptide recombinant caracterise en ce qu'il est obtenu par un 
precede selon la revendication 12. 

5 14. Anticorps monoclonal ou polyclonal caracterise en ce qu'il lie 

selectivement un polypeptide selon Tune des revendications 4, 5 ou 13. 

15. Procede de detection d'un polypeptide selon Tune des revendications 4, 
5 ou 13, caracterise en ce qu'il comprend les etapes suivantes : 

10 a) mise en contact d'un echantillon biologique avec un anticorps 

selon la revendication 14 ; 
b) mise en evidence du complexe antigene-anticorps forme. 

16. Trousse de reactifs pour la mise en oeuvre d'un procede selon la 
15 revendication 15, caracterisee en ce qu'elle comprend : 

a) un anticorps monoclonal ou polyclonal selon la revendication 
14 ; 

b) eventaellement des reactifs pour la constitution d'un milieu 
propice a la reaction immunologique ; 

20 c) les reactifs permettant la detection du complexe antigene- 

anticorps produit lors de la reaction immunologique. 

17. Methode de diagnostic et/ou d 'evaluation pronostique d'une maladie 
inflammatoire et/ou immune ou d'un cancer caracterisee en ce qu'on determine a 

25 partir d'un prelevement biologique d'un patient la presence d'au moins une 
mutation et/ou une alteration d' expression du gene correspondant a SEQ E) 1, 
SEQ ID.N'' 3, SEQ ID N"" 4 ou SEQ ID 6 par I'analyse de tout ou partie d'une 
sequence nucleique correspondant audit g^ne. 

30 18. Puce a ADN caracterisee en ce qu'elle contient une sequence nucleique 

selon Tune des revendications 1 a 3. 
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19. Puce a proteines caracterisee en ce qu'elle contient un polypeptide selon 
Tune des revendications 4, 5 ou 13, ou un anticorps selon la revendication 14. 



20. Precede de detection et/ou de dosage d'un acide nucleique selon Tune 
5 des revendications 1 a 3 dans un echantillon biolo^que, caracterise en ce qu'il 

comprend les etapes suivantes ; 

a) mise en contact d'un polynucleotide selon Tune des 
revendications 1 a 3, marque ; 

b) d6tection et/ou dosage de Thybride forme entre ledit 
1 0 polynucleotide et Tacide nucleique de Techantillon biologique. 

21. Procede de detection et/ou de dosage d'un acide nucleique selon Tune 
des revendications 1 a 3 dans un echantillon biologique, caractdrise en ce qu'il 
comprend una etape d'amplification des acides nucleiques dudit echantillon 

15 biologique a Taide d'amorces choisies parmi les acides nucleiques selon Tune des 
revendications 1 a 2. 

22. Procede de criblage de composes capables de se fixer a un polypeptide 
de sequence SEQ ID N° 2 ou SEQ ID N° 5, caracterise en ce qu'il comprend les 

20 etapes de mise en contact d'un polypeptide selon Tune des revendications 4, 5 ou 
13, d'une cellule selon la revendication 7, ou d'un mammifere selon la 
revendication 8, avec un compose candidat et de detection de la formation d'un 
complexe entre ledit compose candidat et ledit polypeptide. 

25 23. Procede de criblage de composes capables d'interagir in vitro ou in vivo 

avec un acide nucleique selon Tune des revendications 1 a 3, caracterise en ce qu'il 
comprend les Stapes de mise en contact d'un acide nucleique selon Tune des 
revendications 1 a 3, d'une cellule selon la revendication 7, ou d'un mammifere 
selon la revendication 8, avec un compos6 candidat et de detection de la formation 

30 d'un complexe entre ledit compos6 candidat et ledit acide nucleique 

24, Compose caracterise en ce qu'il est choisi parmi 

a) un acide nucleique selon Tune des revendications 1 a 3 ; 



FEUILLE MODIFIEE (ARTICLE 19) 



BNSDOCID: <W0 0172822A3JA> 



59 

b) un polypeptide selon Tune des revendications 4, 5 ou 13 ; 

c) un vecteur selon la revendication 6 ; 

d) une cellule selon la revendication 7 ; et 

e) un anticorps selon la revendication 14 ; 
5 a titre de medicament, 

25. Compose selon la revendication 24, pour la prevention et/ou le 
traitement d'une maladie inflammatoire et/ou immune ou d'un cancer associe a la 
presence d'au moins une mutation du gene correspondant a SEQ ID N° 1 ou SEQ 
10 IDNM. 
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